Vous êtes sur la page 1sur 45

OPTIMISATION

BFA1, Université Paris-Dauphine


Françoise Forges
Année 2020-2021

Ce “polycopié” se base sur le cours de mathématiques pour économistes en L1 d’économie


appliquée. René Aïd, Anne-Marie Boussion, Vincent Iehlé, Cyril Imbert, Jean-Philippe Lefort,
Jérôme Renault, Olivier Rivière, Tristan Tomala, Marion Oury et Yannick Viossat ont con-
tribué à sa rédaction.

1
Introduction
Ce cours se concentre sur un problème qui apparaît sous de multiples formes
lors du choix d’une décision, par exemple économique ou …nancière: l’optimisa-
tion d’une fonction objectif sous des contraintes. Le cours suppose une certaine
familiarité avec des concepts mathématiques de base comme les nombres entiers
naturels (ensemble N), les nombres réels (ensemble R), les fonctions d’une vari-
able réelle (limite, continuité, dérivée, ...), mais rappelle brièvement la plupart
des dé…nitions utiles. Les notes qui suivent doivent se concevoir comme
un résumé. Elles sont indissociables des commentaires, des détails et
des exemples donnés en cours chaque semaine.
Pour des rappels plus détaillés, des exemples supplémentaires, des représen-
tations graphiques, et un développement des matières abordées dans ce cours,
on pourra consulter:
Le livre de Philippe Michel “Cours de mathématiques pour économistes”,
Editions Economica, 1989.
Le cours en ligne de Martin Osborne “Mathematical methods for economic
theory”, accessible depuis le site internet de l’auteur:
https://mjo.osborne.economics.utoronto.ca/index.php/tutorial/index/1/int/i

Table des matières


1. Quelques notions de base pour l’optimisation
1.1 Extremum d’un ensemble dans R et d’une fonction
1.2 Eléments de topologie dans Rd
1.2.1 Normes et distances sur Rd
1.2.2 Suites convergentes, applications continues
2. Premières notions d’optimisation dans Rd
2.1 Notions de calcul di¤érentiel, formule de Taylor
2.2 Conditions du premier et du second ordre
2.2.1 Conditions nécessaires du premier ordre
2.2.2 Conditions du second ordre
2.3 Optimisation avec un objectif concave
2.3.1 Ensembles convexes
2.3.2 Fonctions concaves
2.4 Fonctions dé…nies sur un compact
3. Optimisation dans Rd sous contraintes
3.1 Présentation des conditions de Karush-Kuhn-Tucker
3.2 Optimisation sous contraintes de type égalité
3.2.1 Cas d’une seule contrainte de type égalité
3.2.2 Cas de plusieurs contraintes de type égalité
3.3 Optimisation sous contraintes de type inégalité
3.4 Optimisation sous contraintes de type mixte

Les exercices marqués de visent à une compréhension approfondie.

2
1 Quelques notions de base pour l’optimisation
Le but de ce cours est de décrire rigoureusement un problème d’optimisation du
type
max f (x) (noté aussi max ff (x) : x 2 Cg ) (1)
x2C

et de comprendre les méthodes qui permettent de le résoudre. Il s’agit de choisir


une variable x (qui, typiquement, aura plusieurs composantes) de manière à
obtenir le meilleur résultat f (x) possible, f désignant une fonction “objectif”,
f : C ! R, dé…nie sur un ensemble C qui décrit des “contraintes”.
Un exemple bien connu en économie est celui d’un consommateur qui doit
choisir une quantité x1 d’un bien 1 et une quantité x2 d’un bien 2, a…n de
maximiser son utilité f (x1 ; x2 ), qui découle de ses préférences, sous sa contrainte
budgétaire, qui dépend de son revenu R et des prix (p1 > 0 pour le bien 1, p2 > 0
pour le bien 2):
C = (x1 ; x2 ) 2 R2 : x1 0; x2 0; p1 x1 + p2 x2 R R2 . (2)
En pratique, il n’y a aucune raison de limiter le nombre de dimensions des
variables de décision x. Dans l’exemple précédent, il peut y avoir plus de deux
biens de consommation. L’ensemble C décrivant les contraintes sera donc inclus
dans Rd , où d est un nombre entier positif. Un élément - ou “vecteur”- x de Rd
se décrit par d composantes xi 2 R (ou parfois xi ), i = 1; :::; d. On note un tel
élément x = (xi )1 i d ou encore
0 1
x1
B .. C
B . C
B C
x=B B xi C .
C
B . C
@ .. A
xd
Par exemple, quand d biens sont disponibles, l’ensemble budgétaire d’un
consommateur qui a un revenu R s’écrit
( d
)
X
C = x 2 Rd : xi 0; i = 1; :::; d; pi xi R Rd , (3)
i=1

pi > 0 désignant le prix du bien i (i = 1; :::; d).


La première question qui se pose est de savoir si le problème (1) a une solu-
tion, c’est-à-dire, s’il existe (au moins) un choix x qui satisfasse les contraintes
(x 2 C) et soit le meilleur possible, compte tenu de ces contraintes:
8x 2 C : f (x) f (x ).
Ci-dessous (Section 1.1), nous allons caractériser en détails les solutions éventuelles
du problème (1) en considérant l’image de l’ensemble C par f , c’est-à-dire
f (C) = ff (x) : x 2 Cg = fy 2 R : 9 x 2 C tel que y = f (x)g , (4)

3
et en véri…ant si cet ensemble f (C) R possède un maximum. Donc, ainsi que
nous le verrons, la toute première étape, pour étudier le problème (1) est de
bien comprendre la notion de maximum pour un ensemble A R, avec le cas
A = f (C) en tête.
Dans un deuxième temps (Section 1.2), a…n d’identi…er des propriétés utiles
de l’ensemble des contraintes C apparaissant dans le problème (1), nous étudierons
quelques propriétés topologiques de l’espace Rd . Nous verrons aussi une pro-
priété fondamentale de la fonction objectif f , la continuité. Nous poursuivrons
au Chapitre 2 l’étude de propriétés plus précises de l’ensemble des contraintes
et de la fonction objectif, qui fourniront des conditions pour que le problème
(1) ait une solution.

1.1 Extremum d’un ensemble dans R et d’une fonction (à


valeurs dans R)
Cette section regroupe quelques dé…nitions utiles pour étudier l’extremum (c’est-
à-dire le maximum ou le minimum) d’un ensemble de nombres réels.

Dé…nition (Maximum et minimum) Soit A un ensemble non vide de nombres


réels (A R) et soit a 2 R.

- a est le maximum de A si a 2 A et si pour tout b 2 A, b a. Dans ce cas, on


note a = max A. On dit aussi que a est le plus grand élément de A.
- a est le minimum de A si a 2 A et si pour tout b 2 A, b a. Dans ce cas, on
note a = min A. On dit aussi que a est le plus petit élément de A.

Proposition Le maximum et le minimum d’un ensemble A R, s’ils existent,


sont uniques.

Démonstration Soient a et a0 2 R. Supposons que a et a0 soient chacun


maximum de A. Par la première partie de la dé…nition, a 2 A et a0 2 A. Donc,
par la seconde partie appliquée à a (avec b = a0 ), on a a0 a. En intervertissant
a et a0 , il vient a a0 . Donc a = a0 .

Exercice 1.1 Pour les ensembles suivants, déterminer, s’ils existent,ple maxi-
mum et le minimum: [0; 1[, ]2; 3], ]4; 5[, ] 1; ], n1 : n 2 N n f0g , ] 2; +1[.

Dé…nition (Ensemble majoré, minoré, borné) Soit A un ensemble non vide de


nombres réels (A R).

- Le nombre a 2 R est un majorant de A si pour tout b 2 A, b a.


- Le nombre a 2 R est un minorant de A si pour tout b 2 A, b a.
- L’ensemble A est majoré si A possède un majorant M , i.e., s’il existe M 2 R
tel que pour tout a 2 A, a M .

4
- L’ensemble A est minoré si A possède un minorant m, i.e., s’il existe m 2 R
tel que pour tout a 2 A, a m.
- L’ensemble A est borné si A est majoré et minoré, i.e., s’il existe m 2 R et
M 2 R tels que pour tout a 2 A, m a M .

L’exercice précédent met en lumière qu’un maximum ou un minimum n’existe


pas toujours. On peut a¤aiblir ces dé…nitions en parlant de bornes supérieure
et inférieure.

Dé…nition (Bornes supérieure et inférieure) Soit A un ensemble non vide de


nombres réels (A R).

- Le nombre a 2 R est la borne supérieure de l’ensemble A si A admet au moins


un majorant et si a est le plus petit. Autrement dit, a est le minimum de
l’ensemble des majorants de A. On dit aussi que a est le supremum de A
et on note a = sup A.
- Le nombre a 2 R est la borne inférieure de l’ensemble A si A admet au moins
un minorant et si a est le plus grand. Autrement dit, a est le maximum
de l’ensemble des minorants de A. On dit aussi que a est l’in…mum de A
et on note a = inf A.

Proposition Les bornes supérieure et inférieure d’un ensemble A R, si elles


existent, sont uniques.

Exercice 1.2 Démontrer la proposition précédente.

Nous admettons le résultat fondamental suivant sans démonstration.

Proposition Dans R, tout ensemble majoré admet une borne supérieure (dans
R) et tout ensemble minoré admet une borne inférieure (dans R).

Exercice 1.3 Reprendre l’exercice 1.1. Véri…er si les majorants, minorants et


bornes des di¤érents ensembles existent et, si c’est le cas, les déterminer.

Proposition (Caractérisation du supremum) Soient A R et a 2 R. Les


propriétés suivantes sont équivalentes:

1. a = sup A
2. Pour tout b 2 A, b a; de plus, si b < a, alors b n’est pas un majorant de
A.
3. Pour tout b 2 A, b a; de plus, pour tout " > 0, il existe a" 2 A tel que
a" > a ".

5
Remarque: la notation a" dans l’énoncé ci-dessus vise à rappeler que l’élément
a" choisi dans A dépend de ".

Exercice 1.4 Enoncer l’analogue de la proposition précédente pour l’in…mum.

La proposition suivante fait le lien entre les notions de maximum et de


supremum, et entre celles de minimum et d’in…mum.

Proposition Soient A R et a 2 R.

- Si la borne supérieure sup A de A existe et appartient à A (i.e., sup A 2 A),


alors A possède un maximum et max A = sup A. De même, si la borne
supérieure inf A de A existe et inf A 2 A, alors A possède un minimum et
min A = inf A.
- Si A possède un maximum, alors A a un supremum et sup A = max A. De
même, si A possède un minimum, alors A a un in…mum et inf A = min A.

Exercice 1.5 Démontrer la proposition précédente.

Voici des conventions très répandues, que nous utiliserons parfois:

- si l’ensemble A n’est pas majoré, on pose sup A = +1;


- si l’ensemble A n’est pas minoré, on pose inf A = 1;
- si l’ensemble A est vide (A = ;), on pose sup A = 1 et inf A = +1.

Nous considérons à présent, comme au début du Chapitre 1, une fonction


f : C ! R, dé…nie sur un ensemble C quelconque (dans la suite, C sera un
sous-ensemble de Rd ) et à valeurs dans R. On note f (C) l’image de C par f ,
dé…nie par (4).

Dé…nition (Extrema d’une fonction numérique) Soit f : C ! R.

- Le supremum et l’in…mum de f (sur C) sont les supremum et in…mum de


l’ensemble f (C). On les note soit sup f (C), inf f (C), soit supC f , inf C f ,
soit encore supff (x) : x 2 Cg, infff (x) : x 2 Cg. De même, s’ils existent,
le maximum et le minimum de f (sur C) sont les maximum et minimum
de l’ensemble f (C). On les note soit max f (C), min f (C), soit maxC f ,
minC f , soit encore max ff (x) : x 2 Cg, min ff (x) : x 2 Cg.
- On dit que la fonction f est majorée (sur C) si l’ensemble f (C) est majoré.
De même, on dit que la fonction f est minorée (sur C) si l’ensemble f (C)
est minoré.

6
Revenons au problème d’optimisation maxx2C f (x) considéré au début du
Chapitre 1: la fonction f décrit l’objectif et l’ensemble C, les contraintes.

Dé…nition (Valeur et solution) Considérons le problème d’optimisation (1).

- On appelle valeur du problème (1) le nombre supC f .


- On appelle solution du problème (1) un élément x 2 C tel que supC f =
f (x ). Dans ce cas, supC f = maxC f .

Remarque: une dé…nition analogue s’applique au problème d’optimisation


minx2C f (x).

Exemple: soit C = [0; 1[ et f (x) = 2x + 1. La valeur du problème de minimi-


sation minx2C f (x) est 1 et x = 0 est la solution de ce problème. En revanche,
le problème de maximisation maxx2C f (x) a une valeur, supx2C f (x) = 3, mais
n’a pas de solution.

Exercice 1.6 Calculer les suprema des fonctions suivantes sur les ensembles
indiqués:

2x sur C =] 1; 1[
1
1 x sur C = [1; +1[
sin(x) sur C = R.
f (x) = 2x + 1 si 0 < x < 1, f (0) = 0, f (1) = 2 sur C = [0; 1].

On pourra tracer le graphe des fonctions considérées. Les suprema sont-ils


des maxima? Quelles sont les valeurs des problèmes de maximisation? Ces
problèmes ont-ils des solutions?

1.2 Eléments de topologie dans Rd


1.2.1 Normes et distances sur Rd
Pour mesurer la distance entre deux éléments x et y de Rd , il est commode
d’introduire la notion de norme sur Rd , qui généralise celle de valeur absolue
sur R.

Dé…nition (Norme) Une norme sur Rd est une application k k: Rd ! R+ ,


à valeurs positives (c’est-à-dire, telle que 8 x 2 Rd ; k x k 0), qui satisfait les
propriétés suivantes:

1. 8 x 2 Rd ; k x k= 0 , x = 0
2. 8 x; y 2 Rd ; k x + y k k x k + k y k

7
3. 8 x 2 Rd ; 8 2 R; k x k= j j k x k.

Exercice 1.7 Représenter graphiquement la fonction valeur absolue


j j: R ! R+ et montrer que c’est bien une norme sur R.

Exercice 1.8 Véri…er que 8 x; y 2 Rd , k y x k=k x y k.

Exercice 1.9 Véri…er que 8 x; y 2 Rd , jk x k k y kj k x y k.

Dé…nition (Distance associée à une norme) Soit k k une norme sur Rd .


8 x; y 2 Rd , on note d(x; y) =k x y k la distance (associée à k k) entre x et y.

Exercice 1.10 Véri…er que la distance dé…nie ci-dessus satisfait les propriétés:

1. 8 x; y 2 Rd ; d(x; y) = 0 , x = y
2. 8 x; y 2 Rd ; d(x; y) = d(y; x)
3. 8 x; y; z 2 Rd ; d(x; y) d(x; z) + d(z; y).

Dé…nition (Normes usuelles sur Rd )


s
P
d
k x k2 = (xi )2 (norme euclidienne)
i=1

P
d
k x k1 = jxi j
i=1

k x k1 = max1 i d
fjxi jg.

P
d
Dé…nition (Produit scalaire dans Rd ) 8 x; y 2 Rd , on note x y = xi yi le
i=1
P
d
2
produit scalaire de x et y. (En particulier, 8 x 2 Rd , x x = x2i = (k x k2 ) ).
i=1

Exercice 1.11 Véri…er l’inégalité de Cauchy-Schwartz, c’est-à-dire:

8x; y 2 Rd ; jx yj k x k2 k y k2

Indication: une manière astucieuse de procéder consiste à …xer arbitrairement


2
x; y 2 Rd et à remarquer que l’inégalité (k x + ay k2 ) 0 est satisfaite 8 a 2 R.
En regardant cette inégalité comme une équation du second degré en a, on doit
avoir que le discriminant est négatif.

Exercice 1.12 Véri…er que les normes usuelles sur Rd sont bien des normes,
au sens de la dé…nition ci-dessus. Indication: une manière de faire, pour la

8
norme euclidienne, est d’utiliser l’inégalité de Cauchy-Schwartz (voir exercice
précédent).

Dé…nition (Normes équivalentes) Deux normes (quelconques) sur Rd , notées


k k et k k0 , sont équivalentes s’il existe des constantes a > 0 et b > 0 telles
que, pour tout x 2 Rd ,
a k x k k x k0 b k x k .

Exercice 1.13 Montrer que les trois normes usuelles sur Rd sont équivalentes.

Nous admettons sans démonstration le résultat plus général suivant:

Théorème Toutes les normes sur Rd sont équivalentes.

Dans la suite du cours, k k désignera une norme quelconque sur Rd .

Dé…nition (Boules ouvertes et boules fermées) On appelle boule ouverte de


centre x 2 Rd et de rayon R > 0 l’ensemble

B(x; R) = y 2 Rd : k x y k< R .

De même, on appelle boule fermée de centre x et de rayon R l’ensemble

B(x; R) = y 2 Rd : k x yk R .

Exercice 1.14 Véri…er que dans R muni de la valeur absolue, B(x; R) =]x
R; x + R[. Donner un résultat analogue pour la boule fermée.

Exercice 1.15 Représenter graphiquement la boule fermée B(0; 1) pour les


trois normes usuelles de R2 .

Les dé…nitions qui suivent (point intérieur à un ensemble A, ensemble A


borné) joueront un rôle essentiel dans les chapitres suivants. L’ensemble A
pourra alors s’interpréter comme l’ensemble des contraintes d’un problème d’opti-
misation.

Dé…nition (Point intérieur) Soit A Rd ; x est un point intérieur à A s’il


existe un nombre " > 0 tel que B(x; ") A. On note intA l’ensemble de tous
les points intérieurs à A.

Si x est un point intérieur à A, non seulement x 2 A, mais on peut entourer x


d’une boule B(x; "), dont le rayon " peut être très petit, mais qui est entièrement
contenue dans A.

Exercice 1.16 Soit I un intervalle borné de R. I peut être de la forme [a; b],
[a; b[, ]a; b] ou ]a; b[, avec a, b 2 R, a < b. Montrer que x est un point intérieur à
I si et seulement si x 2 ]a; b[ (et qu’on a donc, dans tous les cas, intI = ]a; b[).

9
Exercice 1.17 Montrer que x est un point intérieur à la boule fermée B(0; 1)
(pour une norme usuelle de Rd ) si et seulement si x 2 B(0; 1), la boule ouverte
correspondante (et qu’on a donc intB(0; 1) = B(0; 1)).

Exercice 1.18 Montrer que l’ensemble des points intérieurs à Rd est Rd (et
qu’on a donc intRd = Rd ).

Dé…nition (Ensemble borné) Un ensemble A Rd est borné s’il existe un


nombre M > 0 tel que 8 x 2 A, k x k M .

Remarque: la place des quanti…cateurs est essentielle et indique qu’un seul et


même nombre M convient, pour tous les éléments de A.

Exercice 1.19 Montrer que toute boule (ouverte ou fermée) est bornée.

Exercice 1.20 Montrer qu’un ensemble A Rd est borné si et seulement s’il est
inclus dans une boule (non nécessairement centrée en 0), c’est-à-dire: A Rd
est borné , 9 x 2 Rd et R > 0 tels que A B(x; R).

Exercice 1.21 Véri…er que si A est un ensemble de nombres réels (A R), la


dé…nition ci-dessus est équivalente à celle de la Section 1.1, c’est-à-dire, A est
borné si et seulement A est majoré et minoré.

Exercice 1.22 Véri…er si les ensembles suivants sont bornés:


A = (x; y) 2 R2 : x2 + y 2 1 ,
C = (x; y) 2 R2 : x2 y 2 1 ,
D = (x; y) 2 R2 : y x2 .

1.2.2 Suites convergentes, applications continues


Une suite dans Rd est une liste in…nie x(n), n = 0; 1; 2; ::: d’éléments de Rd (qui
ont donc, chacun, d composantes: x(n) = (xi (n))1 i d ). Formellement, une
suite dans Rd est donc une application: N ! Rd : n ! x(n). Pour éviter des
notations trop lourdes, nous noterons le plus souvent une suite dans Rd sous la
forme xn , au lieu de x(n). Nous noterons alors xni ou xin la ième composante
(1 i d) xi (n) de x(n).

Dé…nition (Suite convergente) Une suite (xn )n 0 dans Rd converge vers x 2 Rd


si
lim k xn x k= 0
n!1

Cette dé…nition fait apparaître une suite dn =k xn x k= d(xn ; x) de


nombres dans R, à laquelle s’applique la dé…nition de limite d’une suite dans
R. En se rappelant cette dé…nition, on peut réécrire la dé…nition précédente
comme suit:

8 " > 0 9 n0 2 N tel que 8 n n0 :k xn xk " (5)

10
Dans cette expression, la place des quanti…cateurs est importante: n0 est choisi
en fonction de ", mais ensuite, quel que soit n n0 , la distance entre xn et x
doit être inférieure à ".

Proposition La limite d’une suite dans Rd , si elle existe, est unique.

Exercice 1.23 Démontrer la proposition précédente.

Exercice 1.24 Soit (xn )n 0 une suite dans Rd . Montrer que si (xn )n 0 converge
vers x 2 Rd , k xn k converge vers k x k (dans R).

Exercice 1.25 Véri…er que si deux normes sur Rd , k k et k k0 , sont équiv-


alentes, toute suite convergente pour l’une est convergente pour l’autre, et la
limite est la même, quelle que soit la norme considérée. (Cette propriété jus-
ti…e qu’on n’ait pas spéci…é la norme sous-jacente dans la dé…nition de suite
convergente).

Proposition Une suite (xn )n 0 dans Rd converge vers x 2 Rd , 8 i = 1; :::; d,


la suite (xin )n 0 (dans R) converge vers xi 2 R.

Exercice 1.26 Démontrer la proposition précédente en choisissant judicieuse-


ment la norme sous-jacente.

Exercice 1.27 Les suites suivantes, dans R2 , sont-elles convergentes? Dans ce


cas, quelle est leur limite? p
1 1+n
xn = ( 1+n ; 3+2n ), yn = ( n1 ; ( 1)n ), zn = (1; cos(n 2 )), vn = n1 ( n; 1 + n1 ).

Nous allons maintenant utiliser la notion de norme pour dé…nir la continuité


d’une fonction f dé…nie sur Rd , f : Rd ! R, c’est-à-dire une fonction à plusieurs
variables. A titre d’exemple, on peut penser à la fonction d’utilité qui représente
les préférences d’un consommateur confronté à d biens de consommation, comme
la fonction de Cobb-Douglas en présence de deux biens (d = 2) f (x1 ; x2 ) =
x1 ; x12 , 0 < < 1. Grâce à la notion de suite dans Rd vue ci-dessus, nous
obtiendrons une caractérisation utile de la notion de la continuité des fonctions
à plusieurs variables.

Dé…nition (Fonction continue) Une fonction f : Rd ! R est continue en x 2 Rd


si

8">09 > 0 tel que 8 y 2 Rd :k x yk )j f (x) f (y) j ". (6)

La fonction f est continue sur l’ensemble A Rd si elle est continue en tout


x 2 A.

Exercice 1.28 Soit f : Rd ! R une fonction linéaire, dé…nie par f (x) =


Pd
pi xi = p x (où p = (pi )1 i d , p 6= 0).
i=1

11
1. Trouver une constante c > 0 telle que pour tout x 2 Rd , j f (x) j c k x k.
2. En déduire que f est continue.

Proposition (Caractérisation de la continuité par les suites) La fonction f :


Rd ! R est continue en x 2 Rd si et seulement si pour toute suite xn dans Rd
qui converge vers x, f (xn ) converge vers f (x).

Démonstration
Condition nécessaire ()): On suppose que f est continue en x, c’est-à-dire
(6). Soit xn une suite qui converge vers x. On doit montrer que f (xn ) converge
vers f (x), c’est-à-dire, selon (5) trouver, pour tout " > 0, un nombre entier
n0 2 N tel que, pour n n0 , on ait j f (xn ) f (x) j ". Fixons " > 0. Par
(6), il existe = (") tel que pour tout y 2 Rd , k x y k (") garantit
j f (x) f (y) j ". Par ailleurs, comme xn converge vers x, par (5), pour ce
("), il existe n0 = n0 ( (")) 2 N tel que, pour n n0 ( (")), k xn x k (").
Donc n n0 ( (")) garantit j f (xn ) f (x) j ".
Condition su¢ sante ((): On doit montrer que si, pour toute suite xn qui
converge vers x, f (xn ) converge vers f (x), alors (6) est vraie (du type P ) Q).
On procède par contraposition (on montre non Q ) non P ). On suppose donc
que (6) n’est pas satisfaite, c’est-à-dire qu’il existe "0 > 0 tel que pour tout
> 0, il existe y 2 Rd :k x y k etj f (x) f (y) j> "0 . Etant donné "0 ,
1 1
prenons = 1+n , pour chaque n 2 N: il existe yn 2 Rd :k x yn k 1+n
etj f (x) f (yn ) j> "0 . On a trouvé une suite yn qui converge vers x, mais f (yn )
ne converge pas vers f (x).

Exercice 1.29 Montrer que l’application “projection sur la ième composante”


(i = 1; :::; d), dé…nie par

pri : Rd ! R : (x1 ; :::; xd ) ! xi ,

est continue sur Rd .

Proposition (Propriétés des fonctions continues) Soient f : Rd ! R et g :


Rd ! R des fonctions continues en x 2 Rd , et a, b des nombres réels. Les
fonctions suivantes sont continues en x: jf j, af + bg, f g, max ff; gg, min ff; gg
et si g(x) 6= 0, fg . Si g : R ! R est continue en f (x), g f est continue en x.

Exercice 1.30 Véri…er si les fonctions f : R3 ! R ci-dessous sont continues


sur R3 :

f (x1 ; x2 ; x3 ) = x21 + x2 x3 + ex3


2
f (x1 ; x2 ; x3 ) = min x21 + 4x1 ; x21 4x1 + ex2 + x43 + 3.

12
Remarque: On peut avoir à traiter d’une application f : Rd ! Rp , où p est un
nombre entier > 1. Les notions introduites ci-dessus s’appliquent directement
car une telle application f peut se voir comme p fonctions fj , j = 1; :::; p, avec
fj : Rd ! R: 8 x 2 Rd , f (x) 2 Rp est de la forme f (x) = (fj (x))1 j p . On peut
dé…nir la continuité de f : Rd ! Rp en x 2 Rd de deux façons équivalentes.
Selon une première dé…nition, f est continue en x si et seulement si chacune des
fonctions fj , j = 1; :::; p, est continue en x. On peut aussi dé…nir directement la
continuité de f en x, comme en (6), en faisant apparaître la distance, dans Rp ,
entre f (x) et f (y):

8">09 > 0 tel que 8 y 2 Rd :k x yk )k f (x) f (y) k ".

Exercice 1.31 Véri…er que les deux dé…nitions précédentes sont bien équiva-
lentes.

2 Premières notions d’optimisation dans Rd


Dans ce chapitre, on va principalement s’intéresser au cas où la fonction objec-
tif f du problème d’optimisation maxx2C f (x) possède de bonnes propriétés et
atteint son maximum en un point intérieur de l’ensemble C des contraintes
d’optimisation. A titre d’illustration, considérons la fonction f : R ! R :
f (x) = x(3 x). On peut tracer sa courbe, qui consiste en une parabole
concave, de racines 0 et 3 (f (0) = f (3) = 0), avec un maximum sur R, en
3
2 , au milieu des racines. Celui-ci peut s’obtenir en annulant la dérivée de f
(“condition du premier ordre”) f 0 (x ) = 0 , x = 23 . La “condition du sec-
00
ond ordre” f (x ) < 0 con…rme qu’il s’agit d’un maximum. Supposons qu’on
cherche maxx2[ 1;2] f (x): x = 32 est encore la solution, à l’intérieur de [ 1; 2],
l’approche précédente s’applique. Mais si l’on doit résoudre maxx2[0;1] f (x), an-
nuler f 0 (x) n’est d’aucun secours: la solution x = 1 n’est pas à l’intérieur de
l’intervalle [0; 1]. Ce type de solution, “au bord des contraintes”sera traité à la
…n de ce chapitre et surtout dans le suivant.
Dans l’immédiat, nous généraliserons les conditions du premier et du sec-
ond ordre pour des fonctions objectifs à plusieurs variables, conditions qui sont
utiles pour trouver un optimum en un point intérieur de l’ensemble décrivant les
contraintes. La première étape sera de savoir comment on dérive des fonctions
de plusieurs variables.
Dans un second temps, on s’intéressera à une classe de fonctions très im-
portantes : les fonctions concaves. Après les avoir caractérisées de diverses
manières, on montrera que, pour ces fonctions, la condition nécessaire d’ordre 1
pour un optimum, qui consiste à annuler les dérivées premières, est en fait une
condition su¢ sante.
Tous les résultats sont formulés en termes de maximisation. En remplaçant
la fonction objectif f par f , on peut déduire les résultats analogues pour la
minimisation.

13
2.1 Notions de calcul di¤érentiel, formule de Taylor
Commençons par rappeler la notion de dérivabilité pour des fonctions d’une
variable, dé…nies sur un intervalle I de R, et à valeurs dans R. Pour la dé…nition
de “point intérieur”, on se reportera à la Section 1.2.1.

Dé…nition (Fonction dérivable) Soient I un intervalle de R, f : I ! R et x


un point intérieur à I.

- La fonction f est dérivable en x s’il existe un nombre f 0 (x ) tel que

f (x + h) f (x )
lim = f 0 (x ). (7)
h!0 h

- La fonction f est deux fois dérivable en x si la fonction f et la fonction f 0


sont dérivables en x .

Interprétation géométrique: Si la fonction f est dérivable en x , la fonction

y = g(x) = f (x ) + f 0 (x )(x x ) (8)

représente une droite passant par (x ; f (x )) et de pente f 0 (x ), qui est tangente


à la courbe de f en (x ; f (x )). Pour tout x proche de x , g(x) constitue la
meilleure approximation a¢ ne (c’est-à-dire par une droite) de la courbe y =
f (x). Plus précisément, pour une certaine fonction " : R ! R telle que "(h)
tend vers 0 quand h tend vers 0 (c’est-à-dire, telle que limh!0 "(h) = 0), on a:

f (x) = f (x ) + f 0 (x )(x x ) + "(x x )jx x j

ou de façon équivalente, en posant x = x + h,

f (x + h) = f (x ) + f 0 (x )h + "(h) j h j

C’est la formule de Taylor à l’ordre 1.

Considérons maintenant une fonction à plusieurs variables f : A ! R, avec


A Rd . L’ensemble A s’interprète comme la partie de Rd sur laquelle on entend
optimiser f . Ce peut être le domaine de dé…nition de f , par exemple Rd tout
entier, ou l’ensemble qui traduit les contraintes sous-jacentes. Une première
notion de “dérivabilité” pour une fonction à plusieurs variables est celle de
“dérivée partielle”, qui se déduit directement de la notion de dérivabilité pour
une fonction d’une seule variable, rappelée ci-dessus. A nouveau, la dé…nition
de “point intérieur” a été donnée à la Section 1.2.1.

Dé…nition (Dérivées partielles) Soient A Rd , f : A ! R, x = (x1 ; :::; xd ) un


point intérieur à A et i 2 f1; :::; dg. La fonction f possède une dérivée partielle
par rapport à la ième coordonnée xi au point x si la fonction d’une variable

14
obtenue à partir de f en faisant varier uniquement la coordonnée i et en …xant
les autres coordonnées, j 6= i, à xj :

xi ! f ((x1 ; :::; xi 1 ; xi ; xi+1 ; :::; xd ) (9)

est dérivable au point xi . On appelle dérivée partielle de f par rapport à xi


@f
au point x , et on note @x i
(x ), la dérivée de la fonction (9) dé…nie ci-dessus,
calculée selon la formule (7):

@f f ((x1 ; :::; xi 1 ; xi + h; xi+1 ; :::; xd ) f (x )


(x ) = lim . (10)
@xi h!0 h
Notons que, dans l’expression ci-dessus, l’accroissement h ! 0 concerne la ième
coordonnée xi ; ainsi, h 2 R, tout comme dans la formule (7), qui est appliquée
à la fonction (9).
@f
Quand toutes les dérivées partielles @x i
(x ), i = 1; :::; d, existent, on appelle
gradient de f en x et on note rf (x ) le vecteur de Rd dé…ni par

@f @f
rf (x ) = (x ); :::; (x ) . (11)
@x1 @xd
Nous allons voir que la notion de dérivée peut se généraliser des fonc-
tions d’une variable aux fonctions de plusieurs variables de manière à conserver
l’interprétation géométrique d’approximation a¢ ne. Nous commençons par une
notion exigeante, qui a l’avantage de se dé…nir à l’aide des dérivées partielles.

Dé…nition (Fonction de classe C 1 ) Soient A Rd et f : A ! R. La fonction


f est de classe C 1 (on dit aussi continûment di¤ érentiable) sur intA (resp., sur
une boule B(x ; r) A, centrée en un point x à l’intérieur de A, de rayon
@f
r > 0) si pour tout i 2 f1; :::; dg, les dérivées partielles @xi
(x) existent et sont
continues en tout point x de intA (resp., de B(x ; r)).

Théorème (Formule de Taylor à l’ordre 1) Soient A Rd , f : A ! R et


x = (x1 ; :::; xd ) un point intérieur à A. Si la fonction f est de classe C 1
sur une boule B(x ; r) A, r > 0, elle admet un développement de Taylor à
l’ordre 1 au point x , c’est-à-dire qu’il existe une fonction " : Rd ! R, avec
limkhk!0 "(h) = 0 (h = (hi )1 i d 2 Rd ), telle que:

f (x + h) = f (x ) + rf (x ) h + "(h) k h k . (12)

La formule précédente peut s’écrire explicitement comme


X @f X
f (x + h) = f (x ) + (x )hi + "(h) j hi j .
i
@xi i

Ou, en posant x = x + h,

f (x) = f (x ) + rf (x ) (x x ) + "(x x )kx x k.

15
La fonction g : Rd ! R dé…nie par

g(x) = f (x ) + rf (x ) (x x ) (13)

constitue une approximation a¢ ne1 de f autour de x , exacte en x (g(x ) =


f (x )). L’équation y = g(x) décrit un “hyperplan”de vecteur directeur rf (x )
dans Rd+1 . Si d = 1, la formule de Taylor (12) généralise celle qu’on a rappelée
ci-dessus et y = g(x) décrit une droite dans R2 , tangente à la courbe de f (voir
(8)). Si d = 2, y = g(x) décrit de même un plan dans R3 , tangent à la courbe
de f , au point (x ; f (x )).

Remarques:

Nous avons dé…ni ci-dessus la notion de fonction continûment di¤ éren-


tiable. Soient A Rd , f : A ! R et x = (x1 ; :::; xd ) un point intérieur à
A. La fonction f est di¤ érentiable en x s’il existe un vecteur a 2 Rd tel
que
f (x + h) f (x ) a h
lim = 0. (14)
d
h2R ;khk!0 khk
Dans cette expression, toutes les coordonnées de x peuvent varier et
h désigne un vecteur h = (hi )1 i d 2 Rd , tel que hi ! 0, pour tout
i = 1; :::; d, ce qui équivaut à k h k! 0. Intuitivement, la fonction f
est di¤érentiable en x s’il existe un tel vecteur a, qui rende possible
l’approximation a¢ ne de f (x) par g(x) = f (x ) + a (x x ) pour x
proche de x . On peut montrer que si f est di¤érentiable en x , le gradient
rf (x ) de f en x existe et a = rf (x ). On peut également montrer que
si f est continûment di¤érentiable sur B(x ; r), f est di¤érentiable en x ,
ce qui justi…e l’approche adoptée ci-dessus.
Comme dans le cas de la continuité, la somme, le produit et le quotient
(sous réserve d’être bien dé…ni) de fonctions dé…nies sur un sous-ensemble
de Rd , di¤érentiables en un point de Rd , sont di¤érentiables en ce point. Il
en va de même de la composée de fonctions di¤érentiables. Ces propriétés
permettent d’établir la di¤érentiabilité de nombreuses fonctions usuelles.
Comme déjà observé à la …n de la Section 1.2.2, une application f : A !
Rp , où A Rd et p est un nombre entier > 1 peut se voir comme p
fonctions fj , j = 1; :::; p, avec fj : Rd ! R. Une telle application f est
di¤érentiable en un point x intérieur à A si pour tout j 2 f1; :::; pg, fj
est di¤érentiable en x .

Nous poursuivons notre étude de la di¤érentiabilité d’une fonction f : A !


R, avec A Rd en introduisant d’abord les dérivées partielles secondes de f en

1 Une
P
d
fonction g : Rd ! R est a¢ ne si elle est de la forme g(x) = a0 + a x = a0 + a i xi ,
i=1
où a0 2 R et a = (ai )1 i d 2 Rd .

16
un point x = (x1 ; :::; xd ) intérieur à A. Soient i; j 2 f1; :::; dg. La dérivée par-
@ @f @2f
tielle seconde @xi @xj (x ), que l’on note @xi @xj (x ), se dé…nit en appliquant
@f @
à la fonction @xj la dé…nition de la dérivée partielle première @xi (voir (10)) au
@f
point x , ce qui suppose que soit dé…nie dans une boule B(x ; "), " > 0,
@xj
autour de x .
On note D2 f (x ) la matrice des dérivées partielles secondes de f en x ,
2
c’est-à-dire la matrice d d dont l’élément (i; j) est @x@i @x
f
j
(x ). On l’appelle
matrice hessienne.

Dé…nition (Fonction de classe C 2 ) Soient A Rd et f : A ! R. La fonction


f est de classe C 2 (on dit aussi deux fois continûment di¤ érentiable) sur intA
(resp., sur une boule B(x ; r) A, centrée en un point x à l’intérieur de A,
de rayon r > 0) si pour tout i; j 2 f1; :::; dg, les dérivées partielles secondes
@2f
@xi @xj (x) existent et sont continues en tout point x de intA (resp., de B(x ; r)).

En procédant comme dans la remarque ci-dessus, on peut dé…nir la notion


de fonction f deux fois di¤ érentiable en x . La proposition suivante fournit
des conditions su¢ santes pour qu’une fonction f soit deux fois di¤érentiable en
x et qu’on ne doive pas se préoccuper de l’ordre dans lequel on procède aux
dérivées partielles secondes (i puis j ou j puis i).

Proposition Soient A Rd , f : A ! R et x = (x1 ; :::; xd ) un point intérieur


à A. Si la fonction f est de classe C 2 sur B(x ; r) A, f est deux fois di¤éren-
@ @f @ @f
tiable en x et pour tout i; j 2 f1; :::; dg, @x i @xj (x ) = @xj @xi (x ). En
particulier, la matrice hessienne D2 f (x ) est symétrique.

Nous poursuivons avec la formule de Taylor à l’ordre 2, que nous rappelons


d’abord pour une fonction f : A ! R, avec A R (d = 1). Soit x un point
intérieur à A, r > 0 et x 2 ]x r; x + r[ A:

f 00 (x )
f (x) = f (x ) + f 0 (x )(x x )+ (x x )2 + "(x x )(x x )2 (15)
2
où, comme pour la formule de Taylor à l’ordre 1, " : R ! R est une fonction
telle que "(h) tend vers 0 quand h tend vers 0.
De façon équivalente, en termes de x et h:

f 00 (x ) 2
f (x + h) = f (x ) + f 0 (x )h + h + "(h)h2 .
2
Nous allons généraliser la formule ci-dessus au cas de plusieurs variables,
c’est-à-dire pour x et h dans Rd . Pour ce faire, nous devons préciser quelques
notations usuelles. Un élément h 2 Rd étant représenté comme un vecteur-
colonne (une matrice d 1), ht est la transposée de h (donc une matrice 1 d).
Pour h et y 2 Rd , le produit scalaire y h s’écrit donc de manière équivalente

17
comme y t h ou ht y. Etant donné une matrice M , symétrique, d d, ht M h est
la forme quadratique associée à M , c’est-à-dire, en notant mij = mji l’élément
(i; j) de M ,
X X X
ht M h = mij hi hj = mii h2i + 2 mij hi hj . (16)
i;j i i<j

Théorème (Formule de Taylor à l’ordre 2) Soient A Rd , f : A ! R et


x = (x1 ; :::; xd ) un point intérieur à A. Si la fonction f est de classe C 2
sur une boule B(x ; r) A, r > 0, elle admet un développement de Taylor à
l’ordre 2 au point x , c’est-à-dire qu’il existe une fonction " : Rd ! R, avec
limkhk!0 "(h) = 0 telle que:
1
f (x + h) = f (x ) + rf (x ) h + ht D2 f (x )h + "(h) k h k2 (17)
2
où rf (x ) est le gradient de f en x et D2 f (x ) la matrice hessienne de f en
x .

La formule de Taylor (17) s’écrit explicitement comme


X @f 1 X @2f X @2f X
2
f (x +h) = f (x )+ (x )hi + 2 (x )h i + (x )hi hj +"(h) h2i .
i
@xi 2 i
@xi i<j
@xi @xj i

Exercice 2.1 Soit f : R2 ! R : f (x) = min fx1 ; x2 g. Montrer que la fonction f


ne possède pas de dérivée partielle par rapport à la première coordonnée x1 au
point x = (1; 1) (de même qu’en aucun point de la diagonale de R2 , dé…nie par
x1 = x2 ). Montrer qu’en revanche, la fonction f possède des dérivées partielles
en tout point en dehors de la diagonale.

Exercice 2.2 Soit f : A ! R : f (x) = ln(x1 x22 + x1 x3 ), avec

A = intA = x 2 R3 : x1 x22 + x1 x3 > 0 .

Véri…er que f est de classe C 2 (et donc de classe C 1 ) sur A.

Exercice 2.3 Soit la fonction f : R3 ! R dé…nie par


2
f (x1 ; x2 ; x3 ) = min x21 + 4x1 ; x21 4x1 + ex2 + x43 + 3 (voir chapitre 1).
3
Véri…er si f est continûment di¤érentiable sur R .
1 3
Exercice 2.4 Soit la fonction f : R2+ ! R : f (x; y) = x14 x24 . Donner la formule
de Taylor à l’ordre 1, appliquée à la fonction f , au voisinage du point (1; 1).
Même question pour la formule de Taylor à l’ordre 2.
x1 x2
Exercice 2.5 Soit la fonction f : R2 ! R : f (x1 ; x2 ) = x21 +x22
si (x1 ; x2 ) 6= (0; 0)
0 si (x1 ; x2 ) = (0; 0)

18
1. Calculer le gradient de f , rf (x1 ; x2 ), en (x1 ; x2 ) 6= (0; 0).
2. Montrer que les dérivées partielles de f existent en tout point de R2 .
@f @f
Indication: en (0; 0), utiliser la dé…nition de @x1
et @x2
, en terme de
limite.

3. Véri…er si f est continûment di¤érentiable sur R2 .


4. Montrer que la fonction f n’est pas continue en (0; 0), en utilisant la
caractérisation de la continuité par les suites.

2.2 Conditions du premier et du second ordre


Nous sommes maintenant prêts pour formaliser des conditions utiles à la réso-
lution d’un problème d’optimisation du type

max f (x) avec A Rd , f : A ! R.


x2A

Comme on l’a vu dans la Section 1.1, ce problème a une solution si

a) supx2A f (x) < +1, c’est-à-dire, f est majorée sur A.


b) ce supremum est un maximum, c’est-à-dire

9x 2 A tel que sup f (x) = f (x ).


x2A

Dans ce cas, f atteint un maximum global en x 2 A.

En pratique, on devra souvent se contenter du fait que la fonction f atteigne


simplement un maximum local en x 2 A, c’est-à-dire que f (x ) f (x) pour
tous les éléments x de A qui sont proches de x .

Dé…nition (Maximum local)


Soient A Rd et f : A ! R. La fonction f admet un maximum local en
x 2 A s’il existe un nombre r > 0 tel que f (x ) f (x) pour tout x 2 A tel
que kx xk < r (de façon équivalente, f (x ) = maxx2A\B(x ;r) f (x)).

Par ailleurs, comme on l’a précisé ci-dessus, on s’intéresse dans ce chapitre


au cas où le maximum est atteint en un point x intérieur à l’ensemble A, c’est-
à-dire pour lequel il existe une boule ouverte B(x ; r), de rayon r > 0, telle
que B(x ; r) A. En combinant cette notion avec celle de maximum local, on
obtient la dé…nition suivante.

Dé…nition (Maximum local intérieur)


Soient A Rd et f : A ! R. La fonction f admet un maximum local
intérieur en x si elle admet un maximum local en un point x tel que x 2
intA.

19
De manière équivalente, on peut adopter la dé…nition suivante.

Dé…nition
Soient A Rd et f : A ! R. La fonction f admet un maximum local
intérieur en x s’il existe un nombre r > 0 tel que B(x ; r) A et f (x ) =
maxx2B(x ;r) f (x).

Exercice 2.6 Véri…er l’équivalence des deux dé…nitions précédentes.

Exercice 2.7 On considère les fonctions f suivantes sur [ 2; 2]:

f (x) = x2
f (x) = x2
f (x) = x3 3x

Véri…er s’il existe des maxima locaux et dans l’a¢ rmative, s’ils sont globaux
et/ou intérieurs.

2.2.1 Conditions nécessaires du premier ordre


Pour une fonction d’une seule variable réelle, f : I ! R, où I est un intervalle de
R, la condition nécessaire d’ordre 1 nous dit que si f est dérivable et atteint un
maximum (ou un minimum) local en un point x intérieur à I, f 0 (x ) = 0. Les
conditions ci-dessous généralisent cette propriété au cas de plusieurs variables.
Ces conditions font usage de l’approximation a¢ ne d’une fonction f au voisinage
d’un point x , qui est possible si f est di¤érentiable, ainsi qu’on l’a vu dans la
section précédente.

Théorème (Conditions nécessaires du premier ordre) Soient A Rd et f : A !


R. Si la fonction f admet un maximum local intérieur en x et est di¤érentiable
en x , rf (x ) = 0 (i.e., toutes les dérivées partielles de f sont nulles en x :
@f
@xi (x ) = 0, i = 1; :::; d).

Démonstration
Commençons par le cas particulier d = 1. Par hypothèse, A R, il existe
un nombre r > 0 tel que ]x r; x + r[ A et f (x ) = maxx2]x r;x +r[ f (x).
Autrement dit, pour tout h 2 R tel que r < h < r, f (x + h) f (x ), ce qui
implique
f (x + h) f (x )
0 pour 0 < h < r
h
f (x + h) f (x )
0 pour r<h<0
h
et donc
f (x + h) f (x )
lim = 0.
h!0 h

20
Comme par ailleurs, par hypothèse, f est dérivable en x , la limite ci-dessus est
égale à f 0 (x ) (voir (7)) et donc f 0 (x ) = 0.
Venons-en au cas général. Pour alléger les notations, nous prenons d = 2,
mais le raisonnement est le même pour tout d. Supposons que f atteigne un
maximum local intérieur en x = (x1 ; x2 ). D’après la seconde dé…nition de
maximum local intérieur ci-dessus, il existe une boule B(x ; r) A telle que
f (x ) = maxx2B(x ;r) f (x). En nous souvenant de l’équivalence des normes sur
Rd , nous supposons que cette boule est associée à la norme k k1 : B(x ; r) =
B1 (x ; r) = ]x1 r; x1 + r[ ]x2 r; x2 + r[. A partir de f , nous construisons
la fonction d’une variable, '1 , dé…nie sur ]x1 r; x1 + r[ en …xant la seconde
coordonnée x2 :
x1 ! '1 (x1 ) = f (x1 ; x2 ).
D’après la dé…nition de dérivée partielle (voir (10)),
d'1 @f
'01 (x1 ) = (x ) = (x ; x ).
dx1 1 @x1 1 2
De même, nous construisons '2 sur ]x2 r; x2 + r[ en …xant la première coor-
donnée x1 :
x2 ! '2 (x2 ) = f (x1 ; x2 ).
d'2 @f
'02 (x2 ) = (x2 ) = (x ; x ).
dx2 @x2 1 2
L’hypothèse f (x ) f (x) pour tout x 2 B1 (x ; r) implique
'1 (x1 ) '1 (x1 ) 8 x1 2 ]x1 r; x1 + r[ et
'2 (x2 ) '2 (x2 ) 8 x2 2 ]x2 r; x2 + r[ .
En appliquant à '1 et x1 , puis à '2 et x2 , le raisonnement appliqué ci-dessus
pour le cas d = 1, on obtient '01 (x1 ) = 0 et '02 (x2 ) = 0 et donc …nalement
@f @f
rf (x ) = @x 1
(x1 ; x2 ); @x2
(x1 ; x2 ) = 0.

Remarque: Les conditions ci-dessus ne sont en général pas su¢ santes. On


appelle point critique un point x intérieur à A où rf (x ) = 0. Un tel point
peut s’avérer être un maximum, mais aussi un minimum, ou aucun des deux.
Pour s’en convaincre, il su¢ t de considérer la fonction f (x) = x3 sur R.

Exercice 2.8 On considère les fonctions f suivantes sur [ 2; 2]:


f (x) = x2
f (x) = x2
f (x) = x3 3x
f (x) = x3 (x 1)(x 2)
Identi…er les points critiques et véri…er pour chacun si c’est un maximum,
un minimum, global ou local.

21
2.2.2 Conditions du second ordre
Commençons à nouveau par le cas de R (d = 1). Dans ce cadre, supposons que la
fonction f : A ! R, avec A R, a un maximum local intérieur x et approchons
f au voisinage du point x (c’est-à-dire sur un intervalle ]x r; x + r[ A)
par son approximation quadratique grâce à la formule de Taylor à l’ordre 2 (voir
(15)). Comme le point x est un maximum local de f , la condition du premier
ordre est véri…ée: f 0 (x ) = 0. On a donc

f 00 (x )
f (x) = f (x ) + (x x )2 + "(x x )(x x )2
2
où " : R ! R est une fonction telle que "(h) tend vers 0 quand h tend vers
0. Par aillleurs f (x) f (x ) pour tout x 2 ]x r; x + r[. On en déduit que
f 00 (x ) 0. Cette condition ne fait intervenir que la dérivée seconde de f ; on
parle de condition –nécessaire – d’optimalité d’ordre 2.
Cette condition nécessaire f 00 (x ) 0 (en un point x 2 intA tel que
0
f (x ) = 0) ne garantit pas que f ait un maximum local en x , comme on
l’a déjà remarqué ci-dessus en considérant la fonction f (x) = x3 . Néanmoins,
une condition su¢ sante est que f 00 (x ) < 0. Pour le voir, commençons par
utiliser la dé…nition de f 00 (x ) (voir (7)), avec f 0 (x ) = 0:

f 0 (x + h) f 0 (x ) f 0 (x + h)
f 00 (x ) = lim = lim
h!0 h h!0 h
Si f 00 (x ) < 0, il doit exister " > 0 tel que

f 0 (x + h) > 0 pour tout h 2 ( "; 0)


f 0 (x + h) < 0 pour tout h 2 (0; ")

de sorte que f est croissante sur (x "; x ) et décroissante sur (x ; x + ") et


atteint bien un maximum en x .

La formule de Taylor à l’ordre 2 dans Rd (voir (17)) va nous permettre de


généraliser le résultat précédent et d’obtenir des conditions d’ordre 2 dans Rd .
Nous devons auparavant préciser une propriété des matrices symétriques, qui
sera appliquée à la matrice hessienne D2 f (x ). La dé…nition ci-dessous fait usage
de la notion de forme quadratique (voir (16)).

Dé…nition (Matrices (semi-)dé…nies négatives) Une matrice M , symétrique,


d d, est semi-dé…nie négative si

8h 2 Rd ht M h 0.

La matrice M est dé…nie négative si l’inégalité est stricte pour tout h 6= 0.

Diverses caractérisations des matrices (semi-)dé…nies négatives sont disponibles.


Pour le cas d = 2, on a le résultat suivant:

22
Proposition (Caractérisation des matrices symétriques 2 2 (semi-)dé…nies
négatives)
a b
Soit M = une matrice symétrique 2 2. M est semi-dé…nie
b d
négative si et seulement si chaque valeur située sur sa diagonale est négative ou
nulle (a 0, d 0) et son déterminant est positif ou nul (det M = ad b2 0).
M est dé…nie négative si et seulement si a < 0 et det M > 0 (auquel cas d < 0).

Exercice 2.9 Démontrer la proposition précédente.

Exercice 2.10 Enoncer et démontrer l’analogue de la proposition précédente


pour les matrices symétriques M semi-dé…nies positives (i.e., telles que 8h 2 R2
ht M h 0) et dé…nies positives (i.e., telles que 8h 2 R2 , h 6= 0, ht M h > 0).

Exercice 2.11 Soit M une matrice d d diagonale, c’est-à-dire telle que mij =
0 si i 6= j (i; j 2 f1; :::; dg). Montrer que M est semi-dé…nie négative si et
seulement si mii 0, 8i 2 f1; :::; dg.

Théorème (Conditions du second ordre) Soient A Rd , f : A ! R et x =


(x1 ; :::; xd ) un point intérieur à A. Supposons que la fonction f soit de classe C 2
sur une boule B(x ; r) A, r > 0, et que rf (x ) = 0 (pour d = 1, f 0 (x ) = 0).

(i) Si x est un maximum (intérieur) local, la matrice hessienne D2 f (x ) est


semi-dé…nie négative (pour d = 1, f 00 (x ) 0).
(ii) Si la matrice hessienne D2 f (x ) est dé…nie négative (pour d = 1, f 00 (x ) <
0), x est un maximum (intérieur) local.

Exercice 2.12 Enoncer l’analogue du résultat précédent pour un minimum.

Exercice 2.13 Chercher les extrema locaux et globaux éventuels des fonctions
suivantes:
3 2
1. A R, f (x) = x3 2x .

2. A = R+ , f (x) = 0 si x < 12 , f (x) = 1


x sinon.
x
3. A = R+ , f (x) = xe .
4. A = R2 , f (x1 ; x2 ) = x31 x32 + 9x1 x2 .
x1 x2
5. A = R2 , f (x1 ; x2 ) = (1+x21 )(1+x22 )
.

23
2.3 Optimisation avec un objectif concave
Dans cette partie, on étudie les propriétés d’optimisation des fonctions concaves,
qui ne peuvent être dé…nies que sur un domaine convexe dans Rd . On donne
quelques-unes des multiples caractérisations de ces fonctions, en soulignant leur
interprétation géométrique. Ces résultats prennent une forme particulièrement
simple pour les fonctions concaves di¤érentiables ou deux fois di¤érentiables.
En…n on conclura le chapitre par un résultat essentiel : un point critique d’une
fonction concave est un maximum global. Ainsi pour de telles fonctions, la
condition nécessaire d’optimalité du premier ordre est aussi une condition su¢ -
sante.

2.3.1 Ensembles convexes


Dé…nition (Ensemble convexe) Un ensemble A de Rd est convexe si
8 x; y 2 A 8 2 [0; 1] x + (1 )y 2 A.

L’interprétation géométrique est la suivante: étant donné deux points x et


y de Rd , un point de la forme z = x + (1 )y, pour un certain 2 [0; 1], est
sur le segment qui joint x et y. Un ensemble convexe contient donc la totalité
du segment qui joint chacun de ses points.

Exercice 2.14 Montrer que les ensembles suivants sont convexes.


- Un intervalle dans R.
- Une boule ouverte B(x0 ; r) ou fermée B(x0 ; r), pour x0 2 Rd et r > 0.
- L’ensemble de budget d’un consommateur (voir (3)).
- L’ensemble des points x 2 Rd qui satisfont un système d’inégalités linéaires:
gk (x) ak , k = 1; :::; n (18)
d
X
où gk (x) = pki xi = pk x, pk 2 Rd , ak 2 R.
i=1

Exercice 2.15 Montrer qu’une intersection d’ensembles convexes de Rd est


convexe. Montrer que pour une union ce n’est pas nécessairement vrai (donner
un exemple où l’union est convexe et un autre où elle ne l’est pas).

Exercice 2.16 Donner des exemples d’ensembles convexes de Rd qui sont bornés
et d’autres qui ne le sont pas.

Exercice 2.17 Démontrer par récurrence qu’un ensemble A de Rd est convexe


si et seulement si pour tout n = 2; 3; :::, toute famille de points x1 ; :::; xn de A et
P
n Pn
toute famille de nombres réels positifs 1 ; :::; n tels que i = 1: i xi 2 A.
i=1 i=1

24
2.3.2 Fonctions concaves
Dé…nition (Fonction concave) Soient A un ensemble convexe de Rd et f : A !
R. La fonction f est concave (resp., convexe) si

8 x; y 2 A 8 2 [0; 1] f ( x + (1 )y) f (x) + (1 )f (y) (resp., ).

Remarque: Une conséquence directe de la dé…nition est que la fonction f est


concave si et seulement si la fonction f est convexe.

Géométriquement, une fonction concave f : A ! R, dé…nie sur A R, est


une fonction telle que ses cordes sont sous son graphe.

Exercice 2.18 Caractériser les fonctions qui sont à la fois concaves et convexes.
Donner un exemple d’une telle fonction.

Exercice 2.19 Tracer le graphe des fonctions f : R ! R dé…nies par f (x) = x2 ,


ex , f (x) = x3 et des fonctions f : R+ ! R dé…nies par f (x) = ln x,
f (x) = p
f (x) = x et identi…er celles qui sont concaves/convexes.

Exercice 2.20 Soient A Rd un ensemble convexe et f : A ! R. Démontrer


par récurrence que f est concave si et seulement si pour tout n = 2; 3; :::,
toute famille de points x1 ; :::; xn de A et toute famille de nombres réels positifs
P
n
1 ; :::; n tels que i = 1:
i=1

n
! n
X X
f i xi i f (xi ).
i=1 i=1

Cette inégalité indique que l’image par une fonction concave de la moyenne
pondérée de n points est plus grande que la moyenne pondérée des images
de ces points. Par exemple, si x1 ; :::; xn représentent les valeurs d’une variable
e, on interprète i comme la probabilité de xi (i = 1; :::; n). L’inégalité
aléatoire x
nous dit alors que, pour une fonction f concave, f (E x e) E (f (e
x)), où E
désigne l’espérance par rapport à la distribution de probabilité = ( 1 ; :::; n ).
En particulier, un consommateur dont la fonction d’utilité est concave a de
l’aversion pour le risque.

Exercice 2.21 Soient A Rd un ensemble convexe et f : A ! R. Montrer


que la fonction f est concave si et seulement si

H(f ) = f(x; y) 2 A R:y f (x)g

est un ensemble convexe. L’ensemble H(f ) est appelé “hypographe de f ”.

25
Exercice 2.22 Déduire de l’exercice précédent que si A Rd est un ensemble
convexe et f : A ! R et g : A ! R sont des fonctions concaves, la fonc-
tion min ff; gg est concave. Enoncer un résultat analogue pour des fonctions
convexes.

La proposition suivante pourra être utile pour prouver la concavité d’une


fonction.

Proposition Soient A Rd un ensemble convexe et deux fonctions f : A ! R


et g : R ! R. Si les fonctions f et g sont concaves et si la fonction g est croissante,
la fonction g f est concave.

Exercice 2.23 Démontrer la proposition précédente.

Exercice 2.24 Véri…er que les fonctions de deux variables ci-dessous sont con-
caves:

f : R2+ ! R : f (x; y) = ln(x + y)

f : R2 ! R : f (x; y) = e (x+y)
p
f : R2+ ! R : f (x; y) = x + y.

Les fonctions concaves (ou convexes) possèdent intrinsèquement de “bonnes”


propriétés de régularité. Par exemple, les fonctions concaves (ou convexes)
dé…nies sur un ensemble A sont continues sur intA, l’ensemble de tous les points
intérieurs à A. Pour ce qui est de la di¤érentiabilité, ce n’est pas aussi simple,
il su¢ t de considérer la fonction valeur absolue j j: R ! R+ , qui est convexe,
pour s’en persuader. Toutefois, on peut s’attendre à ce que les fonctions concaves
(ou convexes) soient plus simples à caractériser lorsqu’elles sont di¤érentiables.
Nous commençons par le cas des fonctions d’une seule variable.
L’interprétation géométrique de la proposition qui suit est que la courbe
d’une fonction f (d’une variable) concave se trouve, en tout point x, en-dessous
de la tangente (voir (8)) à la courbe en un point donné quelconque x .

Proposition Soient I un intervalle de R et f : I ! R. Si f est dérivable sur


intI, f est concave (sur intI) si et seulement si

f (x) f (x ) + f 0 (x )(x x ) 8x; x 2 intI. (19)

Démonstration
Supposons que f soit concave sur intI. Fixons x et x dans intI. Par dé…ni-
tion de la concavité, 8 2 [0; 1],

f ( x + (1 )x ) f (x) + (1 )f (x ) = (f (x) f (x )) + f (x )

26
dont on déduit, pour 6= 0,

f ( x + (1 )x ) f (x )
f (x) f (x ) . (20)

Introduisons une fonction ' : [0; 1] ! R (qui dépend de x et x , …xés), dé…nie


par
'( ) = f ( x + (1 )x ).
La fonction ' ainsi dé…nie est dérivable (exercice: le véri…er) et

'0 ( ) = (x x )f 0 ( x + (1 )x ).

Par ailleurs, l’inégalité (20) se réécrit

'( ) '(0)
f (x) f (x ) 8 2 [0; 1] , 6= 0.

On en déduit
'( ) '(0)
f (x) f (x ) lim = '0 (0) = (x x )f 0 (x ).
!0

Réciproquement, supposons que (19) soit satisfaite et montrons que la fonc-


tion f est concave. Soient x; y 2 intI et 2 [0; 1]. Posons z = x + (1 )y. En
appliquant (19), on trouve que

f (x) f (z) f 0 (z)(x z) et


f (y) f (z) f 0 (z)(y z)

En multipliant la première inégalité par , la seconde par (1 ) et en faisant


la somme, on trouve

f (x) + (1 )f (y) f (z) f 0 (z)( x + (1 )y z) = 0,

d’où on conclut que f est bien concave:

Le résultat précédent se généralise aux fonctions de plusieurs variables: la


courbe d’une fonction concave se situe en-dessous de tous ses hyperplans tan-
gents (voir (13)).

Proposition Soient A Rd un ensemble convexe et f : A ! R. Si f est


di¤érentiable sur intA, f est concave (sur intA) si et seulement si

f (x) f (x ) + rf (x ) (x x ) 8x; x 2 intA.

Nous sommes maintenant en mesure d’énoncer le principal résultat de cette


partie:

27
Théorème (Optimisation des fonctions concaves di¤érentiables) Soient A Rd
un ensemble convexe et f : A ! R une fonction concave sur A, di¤érentiable
sur intA. Soit x 2 intA. Si rf (x ) = 0 (pour d = 1, f 0 (x ) = 0), f atteint son
maximum global en x : f (x ) = maxx2A f (x).

Exercice 2.25 Démontrer le théorème à partir de la proposition précédente.

Nous terminons cette section avec la caractérisation des fonctions concaves


deux fois dérivables ou di¤érentiables.

Proposition (Caractérisation des fonctions concaves deux fois dérivables) Soient


I un intervalle de R et f : I ! R. Si f est dérivable sur intI, f est concave (sur
intI) si et seulement si f 0 est décroissante (sur intI). Si f est deux fois dérivable
00
sur intI, f est concave (sur intI) si et seulement si f (x) 0 pour tout x 2
intI.

Proposition (Caractérisation des fonctions concaves deux fois di¤érentiables)


Soient A Rd un ensemble convexe et f : A ! R une fonction de classe C 2
sur intA. La fonction f est concave (sur intA) si et seulement si la matrice
hessienne D2 f (x) est semi-dé…nie négative pour tout x 2 intA.

Exercice 2.26 Véri…er que les fonctions de deux variables ci-dessous sont con-
caves:
p p
f : R2+ ! R : f (x; y) = x + y
f : R2 ! R : f (x; y) = x2 2y 2 + 2xy + 2y 1.

2.4 Fonctions dé…nies sur un compact


Jusqu’à présent nous nous sommes concentrés sur la théorie de l’optimum atteint
en un point intérieur à l’ensemble qui décrit les contraintes, dont le dernier
théorème de la section précédente représente le ‡euron. Nous allons maintenant
voir un résultat tout aussi important qui permet de traiter également le cas d’un
optimum atteint au “bord” de l’ensemble des contraintes. Pour ce faire, nous
devons introduire la notion d’ensemble compact dans Rd , qui se base quant à
elle sur la notion de suite convergente dé…nie dans la Section 1.2.2.

Dé…nition (Ensemble fermé dans Rd ) Un ensemble A Rd est fermé si et


seulement si, pour toute suite (xn ) d’éléments de A qui converge vers un point
x 2 Rd , ce point x 2 A.

Exercice 2.27 Véri…er que les ensembles suivants sont fermés:

- Rd .
- fx0 g, où x0 2 Rd .

28
- Une boule fermée B(x0 ; r), pour x0 2 Rd et r > 0.
- Un intervalle de la forme [a; b] dans R (a, b 2 R, a 6= b).
- L’ensemble de budget d’un consommateur (voir (3)).
- A1 = x 2 Rd : f (x) = 0 , A2 = x 2 Rd : f (x) 0 où f : Rd ! R est une
fonction continue.
- A3 = (x; y) 2 R2 : y f (x) , A4 = (x; y) 2 R2 : y = f (x) où f : R ! R
est une fonction continue.
- L’ensemble des points x 2 Rd qui satisfont un système d’inégalités linéaires
(voir (18)).

Exercice 2.28 Montrer que les intervalles de la forme [a; b[, ]a; b] et ]a; b[, avec
a, b 2 R, a < b, ne sont pas fermés.

A…n de faire le lien entre la notion d’ensemble fermé et celle d’intérieur d’un
ensemble, nous introduisons la notion d’ensemble ouvert.

Dé…nition (Ensemble ouvert dans Rd ) Un ensemble A Rd est ouvert si son


complémentaire Rd n A est fermé.

On en déduit que l’ensemble vide, ;, dont le complémentaire est Rd , est


ouvert. Pour des raisons de cohérence, on impose que l’ensemble vide soit
également fermé. Ainsi, Rd est à la fois fermé et ouvert.

Proposition (Caractérisation des ensembles ouverts dans Rd ) Un ensemble A


Rd est ouvert si et seulement si tout point x 2 A est intérieur à A, c’est-à-dire
si A = intA.

Exercice 2.29 Démontrer la proposition précédente.

La caractérisation ci-dessus, qui peut aussi tenir lieu de dé…nition, nous dit
qu’un ensemble A est ouvert si et seulement si tout point x de A peut être
entouré d’une boule ouverte B(x; r) –dont le rayon r peut être très petit mais
est tel que r > 0 –qui soit entièrement contenue dans A (i.e., B(x; r) A). On
peut donc dire qu’un ensemble est ouvert si et seulement s’il est “voisinage de
chacun de ses points”.

La dé…nition suivante fait appel à la notion d’ensemble borné vue à la Section


1.2.1.

Dé…nition (Ensemble compact dans Rd ) Un sous-ensemble de Rd est compact


si et seulement s’il est fermé et borné dans Rd .

29
Exercice 2.30 Véri…er si les ensembles fermés de l’exercice 2.27 sont compacts.

Le théorème ci-dessous est essentiel. Nous l’appliquerons régulièrement au


Chapitre 3.

Théorème (Optimisation d’une fonction continue sur un compact) Si K est


un ensemble compact de Rd et f : K ! R une fonction continue, la fonction f
est bornée et atteint ses bornes, c’est-à-dire qu’il existe x 2 K tel que f (x ) =
maxx2K f (x) et x 2 K tel que f (x ) = minx2K f (x).

Remarque: Le point x 2 K dont le théorème ci-dessus garantit l’existence


peut être à l’intérieur de K ou non. Dans ce dernier cas, quand x 2 KnintK,
x est sur la “frontière” (au “bord”) de K. Dans l’exemple proposé au début
du Chapitre 2, si K = [ 1; 2], la fonction f : R ! R : f (x) = x(3 x) atteint
son maximum à l’intérieur de K (en x = 32 ) mais si K = [0; 1], la fonction f
atteint son maximum sur la frontière de K, en x = 1.

30
Le Chapitre 3* est consacré à des conditions du premier ordre, nécessaires (et sous des
hypothèses adéquates, suffisantes) utiles à la résolution de problèmes d’optimisation sous
contraintes : les conditions de Karush-Kuhn-Tucker, anticipées par W. Karush et
développées par H. Kuhn et A. Tucker, souvent appelées simplement conditions de Kuhn-
Tucker.

Quelques éléments biographiques (tirés de Wikipedia):

William Karush (1 March 1917 – 22 February 1997) was a mathematician best known for his
contribution to Karush-Kuhn-Tucker conditions. In his master's thesis he was the first to publish
these necessary conditions for the inequality-constrained problem, although he became
renowned after a seminal conference paper by Harold Kuhn and Albert Tucker. He also worked
as a physicist for the Manhattan Project, although he signed the Szilard petition and became a
peace activist afterwards.

Harold William Kuhn (July 29, 1925 – July 2, 2014) was an American mathematician who
contributed to game theory. He won the 1980 John von Neumann Theory Prize along with
David Gale and Albert Tucker. A former Professor Emeritus of Mathematics at Princeton
University, he is known for the Karush-Kuhn-Tucker conditions, for Kuhn’s theorem and for
developing Kuhn poker as well as the description of the Hungarian method for the assignment
problem. Recently, though, a paper by Carl Gustav Jacobi, published posthumously in 1890 in
Latin, has been discovered that anticipates by many decades the Hungarian algorithm.

Albert William Tucker (28 November 1905 – 25 January 1995) was a Canadian
mathematician who made important contributions in topology, game theory and non-linear
programming. Tucker advised and collaborated with Harold Kuhn on a number of papers and
models. In 1950, Albert Tucker gave the name and interpretation “prisoner’s dilemma” to
Merrill Flood and Melvin Dresher’s model of cooperation and conflict, resulting in the most
well-known game theoretic paradox. He is also well known for the Karush-Kuhn-Tucker
conditions, a basic result in non-linear programming, which was published in conference
proceedings, rather than in a journal.

*
paginé indépendamment des deux chapitres précédents.
3 Optimisation dans Rd sous contraintes
Ce chapitre est consacré à l’optimisation de fonctions f de d variables réelles, différentiables, sur un
ensemble de contraintes A ⊂ Rd . On traitera successivement :
1. le cas d’une seule contrainte de type “égalité” : A = {x ∈ Rd : h(x) = 0},
2. le cas de plusieurs contraintes de type “égalité” : A = {x ∈ Rd : h1 (x) = 0, . . . , hp (x) = 0},
3. le cas de plusieurs contraintes de type “inégalité” : A = {x ∈ Rd : g1 (x) ≥ 0, . . . , gn (x) ≥ 0}.
4. le cas mixte : A = {x ∈ Rd : h1 (x) = 0, . . . , hp (x) = 0, g1 (x) ≥ 0, . . . , gn (x) ≥ 0}.
Dans les deux premiers cas, on établira que si x̄ est une solution du problème alors une certaine fonction L
(appelée lagrangien) vérifie les conditions d’optimalité pour les points intérieurs : ses dérivées premières
s’annulent. Dans les deux derniers cas, on utilisera encore le lagrangien pour donner des conditions
nécessaires d’optimalité (les conditions de Karush, Kuhn et Tucker). Dans tous les cas, en supposant de
plus f concave, les hi affines et les gj concaves, les conditions précédentes deviennent suffisantes.

3.1 Présentation des conditions KKT


Considérons le problème général à traiter (P). On cherche à maximiser une fonction objectif f sur un
ensemble décrit par des contraintes, qui peuvent être de type égalité ou inégalité.


 max f (x)
x ∈ Rd

(P) :

 hi (x) = 0, ∀i = 1, ..., p
gi (x) ≥ 0, ∀i = 1, ..., n

— Les fonctions hi , pour i = 1, ..., p, sont les fonctions contraintes de type égalité du problème,
— Les fonctions gi , pour i = 1, ..., n, sont les fonctions contraintes de type inégalité du problème.
Remarque 1. Suivant les problèmes considérés, il se peut que p = 0 ou n = 0.

Définition 1. On appelle lagrangien du problème (P), l’application L : Rd × Rn × Rp −→ R définie par


p
X n
X
L(x1 , ..., xd , λ1 , ...λp , µ1 , ..., µn ) = f (x1 , ..., xd ) + λi hi (x1 , ..., xd ) + µi gi (x1 , ..., xd )
i=1 i=1

Notations.
— Pour simplifier, on écrit L(x, λ, µ) au lieu de L(x1 , ..., xd , λ1 , ...λp , µ1 , ..., µn ).
— Les variables (λi )i=1,...,p et (µi )i=1,...,n sont appelées multiplicateurs de Lagrange du problème
(P). On suivra la notation suivante dans tout le chapitre :
— Lorsqu’il s’agit d’une contrainte de type égalité, on utilise la lettre λ indicée par le numéro de
la contrainte,
— Lorsqu’il s’agit d’une contrainte de type inégalité, on utilise la lettre µ, indicée par le numéro
de la contrainte.

Conditions de Karush -Kuhn-Tucker.


Nous allons maintenant donner les conditions de Karush-Kuhn-Tucker (conditions KKT) associées au
problème général (P). Elles s’écrivent de la manière suivante : un vecteur x∗ ∈ Rd vérifie les conditions
KKT s’il existe λ1 , ..., λp ∈ R et µ1 , ..., µn ∈ R tels que :

2
∂L(x∗ , λ, µ)


 =0 ∀i = 1, ..., d

 ∂xi



 ∂L(x , λ, µ)
=0 ∀i = 1, ..., p



(KKT ) : ∂λi

∂L(x , λ, µ)

 ≥0 ∀i = 1, ..., n
∂µi



µ ≥0 ∀i = 1, ..., n


 i


µi gi (x∗ ) = 0 ∀i = 1, ..., n

On peut réécrire ces conditions de manière un peu plus condensée en explicitant le lagrangien et en
remarquant que les dérivées partielles du lagrangien par rapport aux λi et µi donnent exactement les
fonctions hi et gi :
p
 n
X X
∗ ∗
µi ∇gi (x∗ ) = 0

∇f (x ) + λ ∇h (x ) +

i i




 i=1 i=1
hi (x∗ ) = 0

(KKT ) : ∀i = 1, ..., p



 gi (x ) ≥ 0 ∀i = 1, ..., n
µ ≥ 0 ∀i = 1, ..., n

i


µi gi (x∗ ) = 0

∀i = 1, ..., n

Définition 2. Soit x ∈ A. La contrainte j est dite saturée en x si gj (x) = 0. Soit J(x) := {j = 1, ..., n :
gj (x) = 0} l’ensemble des contraintes, de type inégalité, saturées en x.
En examinant les conditions KKT, on voit que si une contrainte de type inegalité gi n’est pas saturée
au point x∗ , cela implique que µi = 0 car on a simultanément gi (x∗ ) > 0 et µi gi (x∗ ) = 0. Donc la
contrainte gi n’intervient plus dans les conditions KKT, elle est inactive.
Ces conditions sont à connaı̂tre absolument. Dans la suite nous montrons que ces conditions
peuvent caractériser les points de maximum d’une fonction (sous certaines hypothèses). Et nous verrons
enfin comment résoudre explicitement les problèmes à partir d’exemples. Nous partons du cas le plus
simple où p = 1 et n = 0 pour aller au plus général. Pour chaque problème on verra apparaı̂tre les
conditions associées, données plus haut.

A propos de la résolution. Les résultats suivants sont relativement puissants, en particulier ils s’ap-
pliquent extrêmement bien aux environnements économiques standards, que ce soit en macroéconomie
ou en microéconomie. Ceci dit, en pratique, la résolution à partir des conditions KKT est compliquée par
le fait qu’il faut envisager successivement toutes les configurations possibles : toutes les contraintes sont
saturées à l’optimum, toutes sauf une, deux,..., aucune (tous les µj sont nuls à l’optimum). Pour trouver
la bonne solution, il faut procéder par élimination, en montrant que parmi l’ensemble de ces possibilités,
certaines aboutissent à des contradictions. Les sections suivantes fournissent de nombreux exemples qui
vous aideront à vous y retrouver.

3.2 Optimisation sous contraintes de type égalité


3.2.1 Cas d’une seule contrainte de type égalité
On considère ici le cas où A = {x ∈ Rd : h(x) = 0} avec h différentiable.

Première intuition géométrique des conditions nécessaires d’optimalité.


Nous allons, pour simplifier, nous intéresser tout d’abord au cas où h est une fonction affine. On peut
donc écrire :

3
h(x) = h(x1 , . . . , xd )
Pd
= ci xi + k où c = (c1 , . . . , cd ), k ∈ R
i=1

Dans le cas sans contrainte, il a suffi de s’intéresser aux propriétés locales des maxima locaux de f
pour obtenir la condition d’optimalité du premier ordre. Procédons de même ici et considérons donc qu’il
existe une solution locale x̄ du problème
max f (x).
c·x+k=0

On se souvient de la formule de Taylor à l’ordre 1 vue dans le chapitre précédent. On en déduit que lorsque
x est “suffisamment proche” de x̄, l’inégalité f (x̄) ≥ f (x) implique la suivante : ∇f (x̄) · (x̄ − x) ≥ 0.
Autrement dit, il existe ε > 0 tel que, pour tout x ∈ B(x̄, ε) vérifiant la contrainte c·x+k = 0 (c’est-à-dire
tel que : c · (x̄ − x) = 0), on a : ∇f (x̄) · (x̄ − x) ≥ 0.
A présent, pour tout u ∈ Rd , on pose x := x̄ − 2||u|| ε
u et x0 := x̄ + 2||u||ε
u. On remarque que dans
0 ε 0
ce cas, ||x − x̄|| = ||x − x̄|| = 2 et donc x et x appartiennent à la boule ouverte B(x̄, ε). D’autre part,
x̄ − x = x0 − x̄ = 2||u||
ε
u. On en déduit que pour tout u ∈ Rd tel que c · u = 0, on a ∇f (x̄) · (x̄ − x) ≥ 0 et
∇f (x̄) · (x̄ − x0 ) ≥ 0, ce qui signifie ∇f (x̄) · (x̄ − x) = ∇f (x̄) · (x̄ − x0 ) = 0 et donc ∇f (x̄) · u = 0.
Ainsi, on obtient la propriété suivante :

Pour tout u dans Rd : si c · u = 0, alors ∇f (x̄) · u = 0 (Q1 )

Figure 1 – Propriété Q1 dans R3

Commentons brièvement la propriété Q1 . Remarquons tout d’abord que si c = (0, . . . , 0) (et donc
k = 0 car x̄ satisfait : c · x̄ + k = 0), on obtient ∇f (x̄) = (0, . . . , 0). On retrouve donc la condition de
premier ordre (sans contrainte) vue au chapitre précédent. Considérons à présent le cas c 6= 0. Plaçons
nous dans R3 et considérons la figure 3.1 ci-dessus. c est un vecteur de R3 − {(0, 0, 0)} et {u : c · u = 0}
est le plan orthogonal à c, noté {c}⊥ . Si un vecteur a est orthogonal à ce plan, il doit être colinéaire au
vecteur c. On a donc montré intuitivement que :

Q1 ⇔ ∃α ∈ R tel que ∇f (x̄) = αc

Revenons maintenant au cas général, avec h quelconque et non nécessairement affine. Si on suppose
que ∇h(x̄) 6= 0 (c’est-à-dire que localement en x̄, A n’est pas dégénéré), on peut (preuve omise) utiliser
la différentiabilité de h, comme nous avons utilisé celle de f , et réécrire la propriété Q1 de la manière
suivante :

Pour tout u dans Rd : si ∇h(x̄) · u = 0, alors ∇f (x̄) · u = 0 (Q1 )

On obtient donc l’existence d’un réel α tel que ∇f (x̄) = α∇h(x̄). Cette dernière condition est appelée
condition nécessaire d’optimalité d’ordre 1. Elle revient à chercher les points critiques (c’est-à-dire les
points d’annulation du gradient) du lagrangien. En effet,

4
Théorème 1. Si x̄ est une solution locale du problème (P)

max f (x)
{x : h(x)=0}

∂L(x̄,λ)
et si ∇h(x̄) 6= 0 (condition de qualification de la contrainte), alors il existe un réel λ tel que ∂xi =0
∂L(x̄,λ)
pour tout i = 1, ..., d et ∂λ = 0. C’est-à-dire :
• ∇f (x̄) + λ∇h(x̄) = 0
• h(x̄) = 0
Remarque 2. On peut vérifier qu’il s’agit bien des conditions KKT associées à (P) données dans la section
précédente en posant p = 1 et n = 0.
Exemple 1.

Considérons le problème :
 Pd
 max i=1 xi
(P ) : x ∈ Rd
Pd
x2i = 1

i (λ)

Solution : Ici on a :
d
X
h(x) = x2i − 1
i

On voit tout d’abord que le maximum pour le problème (P ) existe car {x ∈ Rd | h(x) = 0} est un
compact et f est continue (notamment, pour tout i = 1, ..., d, xi ∈ [−1; 1]).

Condition de qualification de la contrainte.


On voit que ∇h(x̄) = 2(x̄1 , ..., x̄d ). Si x̄ est une solution alors h(x̄) = 0 donc au moins une composante
de x̄ est différente de 0. Ainsi les hypothèses du Théorème 1 sont satisfaites.

Condition nécessaire d’optimalité.


De plus, si x̄ est un maximum local de f sur {x ∈ Rd | h(x) = 0} alors il existe λ tel que ∇f (x̄) +
λ∇h(x̄) = 0 d’après le théorème 1, c’est-à-dire pour tout i = 1, ..., d,

∂f (x̄) ∂h(x̄)
+λ =0
∂xi ∂xi
On obtient donc pour i = 1, ..., d, 1 = −2λx̄i .
Nécessairement il est vrai que x̄i = x̄j pour tout i, j = 1, ..., d. Soit m∗ = x̄i pour tout i = 1, ..., d. En
Pd Pd
remplaçant dans la contrainte h, on a i=1 x̄2i = i=1 m∗2 = dm∗2 = 1. On en déduit alors qu’il existe
 ∈ {−1, 1} tel que pour tout i, x̄i = m∗ =  √1d .
Il reste donc seulement deux candidats pour le maximum : le vecteur ( √1d , ..., √1d ) et le vecteur
(− √1d , ..., − √1d ). Nous devons les départager. Il est facile de vérifier que ( √1d , . . . , √1d ) est le maximum
global de la fonction f dans l’ensemble des contraintes. De même, (− √1d , . . . , − √1d ) est son minimum
global dans l’ensemble des contraintes.
Exercice 1. Résoudre les problèmes suivants :
1. f (x) = x2i , h(x) = i xi − 1.
P P

2. f (x1 , x2 , x3 ) = x41 + x42 + x43 , h(x) = x21 + x22 + x23 − 1.


3. f (x1 , x2 ) = x1 x2 , h(x1 , x2 ) = x21 + x22 − 1.
2 2
4. f (x1 , x2 ) = e−x1 −x2 , h(x1 , x2 ) = (x1 − 1)2 + (x2 − 1)2 − 1.

5
Nous pouvons maintenant envisager Pd le cas particulier où la fonction objectif f est concave et la
fonction h est affine (i.e., de la forme i=1 ai xi + b). Sous ces conditions, un point x̄ vérifiant la condition
nécessaire d’optimalité est un maximum global de f . En effet,
Théorème 2. Supposons f concave et h affine (i.e., il existe des réels a1 , . . . , ad et b tels que h(x) =
Pd d
i=1 ai xi + b). S’il existe x̄ ∈ R et λ ∈ R tels que :
• ∇f (x̄) + λ∇h(x̄) = 0
• h(x̄) = 0
alors x̄ est solution de (P).

3.2.2 Cas de plusieurs contraintes de type égalité


On généralise maintenant les résultats établis précédemment au cas d’un ensemble de contrainte de
la forme A = {x ∈ Rd : h1 (x) = 0, . . . , hp (x) = 0}.
Comme précédemment on peut s’intéresser, pour se donner une idée du résultat, au problème où les
contraintes correspondent à des fonctions affines. Supposons donc que pour tout entier i compris entre 1
et p : hi (x) = ci · x + ki . On obtient alors l’analogue de la propriété Q1 :

Pour tout u ∈ Rd : si c1 · u = 0, . . . , cp · u = 0, alors ∇f (x̄) · u = 0 (Q2 )

Figure 2 – Propriété Q2
u

a
c1
P
c2

On peut, comme nous l’avons fait pour la propriété (Q1 ), commenter brièvement la propriété (Q2 ).
Plaçons nous à nouveau dans R3 et considérons la figure 3.2 ci-dessous. Si le vecteur u est orthogonal aux
vecteurs c1 et c2 , il est orthogonal au plan formé par toutes leurs combinaisons linéaires. Si un vecteur a
est orthogonal à u, il doit donc appartenir à ce plan. Pd
On en conclut que la propriété (Q2 ) signifie qu’il existe des réels λ1 , . . . , λp tels que ∇f (x̄)+ i=1 λi ∇hi (x̄) =
0.
Lorsque A était décrit par une contrainte unique, dans le cas d’une contrainte quelconque (non
nécessairement affine), il a fallu imposer la relation ∇h(x̄) 6= 0. Ici, on va devoir imposer que les vecteurs
∇h1 (x̄), . . . , ∇hp (x̄) soient linéairement indépendants (i.e., qu’on ne peut écrire l’un des vecteurs comme
combinaison linéaire des autres).
Théorème 3. Si x̄ est une solution locale de (P)

max f (x), où A = {x : h1 (x) = 0, h2 (x) = 0, . . . , hp (x) = 0}


x∈A

et si ∇h1 (x̄), . . . , ∇hp (x̄) sont linéairement indépendants (condition de qualification des contraintes),
alors il existe des réels λ1 , . . . , λp tels que ∂L(x̄,λ)
∂xi = 0, pour tout i = 1, ..., d et ∂L(x̄,λ)
∂λi = 0 pour tout
i = 1, . . . , p. C’est-à-dire
Xp
• ∇f (x̄) + λi ∇hi (x̄) = 0
i=1
• hi (x̄) = 0 pour tout i = 1, ..., p

6
Remarque 3. Ici aussi on remarque qu’il s’agit bien des conditions KKT associées au problème (P).
Théorème 4. Supposons f concave et les hi affines (i.e., il existe des réels ai1 , . . . , aid et bi tels que pour
Pd
tout i = 1, . . . , p, hi (x) = j=1 aij xj + bi ). S’il existe x̄ ∈ Rd et λ1 , . . . , λp ∈ R tels que
X p
• ∇f (x̄) + λi ∇hi (x̄) = 0
i=1
• hi (x̄) = 0 pour tout i = 1, ..., p
alors x̄ est une solution de (P).
Démonstration Considérons (x̄, λ1 , . . . , λp ) comme indiqué. Alors, d’après une propriété des fonctions
concaves, pour tout x élément de A, on a

f (x̄) − f (x) ≥ ∇f (x̄) · (x̄ − x)


Xp
≥ − λi ∇hi (x̄) · (x̄ − x),
i=1

Comme pour tout i ∈ {1, . . . , p}, hi est affine, on a

hi (x̄) − hi (x) = ∇hi (x̄) · (x̄ − x).

Et comme pour tout i, hi (x̄) = 0, on déduit


p
X
f (x̄) − f (x) ≥ λi hi (x).
i=1

Donc pour tout x qui vérifie les contraintes, i.e., tel que pour tout i, hi (x) = 0, on a f (x̄) ≥ f (x) et donc
x̄ est une solution de (P). 

Exemple 2.

Considérons le problème :


 min x2 + y 2 + z 2
(x, y, z) ∈ R3

(P ) :

 x + 2y + z = 1 (λ1 )
2x − y − 3z = 4 (λ2 )

Solution :
De manière équivalente, cela revient à considérer en fait


 max −(x2 + y 2 + z 2 )
3
(x, y, z) ∈ R


 x + 2y + z = 1
2x − y − 3z = 4

La fonction objectif est continue et différentiable. L’ensemble A est fermé mais il n’est pas borné. On
peut cependant s’assurer de l’existence d’une solution. On va faire appel ici au théorème 4, en vérifiant
tout d’abord qu’il est valide dans cet exemple.

Condition de qualification des contraintes.


On a h1 (x, y, z) = x + 2y + z − 1 et h2 (x, y, z) = 2x − y − 3z − 4. Si (x̄, ȳ, z̄) est un maximum, il faut
vérifier que ∇h1 (x̄, ȳ, z̄) et ∇h2 (x̄, ȳ, z̄) sont deux vecteurs linéairement indépendants. Or on a pour tout
(x, y, z) ∈ R3 :
∇h1 (x, y, z) = (1, 2, 1) et ∇h2 (x, y, z) = (2, −1, −3)

7
qui sont clairement linéairement indépendants (non proportionnels). La contrainte de qualification du
théorème 3 est donc vérifiée.

Conditions nécessaires d’optimalité.


D’après le théorème 3, si (x̄, ȳ, z̄) est solution du problème (P ) alors nécessairement il existe λ1 , λ2
tels que
• ∇f (x̄, ȳ, z̄) + λ1 ∇h1 (x̄, ȳ, z̄) + λ2 ∇h2 (x̄, ȳ, z̄) = 0
• h1 (x̄, ȳ, z̄) = h2 (x̄, ȳ, z̄) = 0
C’est-à-dire :

−2x̄ + λ1 + 2λ2 = 0
−2ȳ + 2λ1 − λ2 = 0
−2z̄ + λ1 − 3λ2 = 0
x̄ + 2ȳ + z̄ = 1
2x̄ − ȳ − 3z̄ = 4
Le système à 5 inconnues admet une unique solution :
 16 1 11 52 18 
(x̄, ȳ, z̄, λ1 , λ2 ) = , ,− , ,
15 3 15 75 25
Conditions suffisantes d’optimalité.
La fonction (x, y, z) → x2 + y 2 + z 2 étant une somme de fonctions convexes elle est convexe (à savoir,
et à savoir démontrer si besoin). Donc −f est concave. Si vous n’êtes pas convaincus, vous pouvez
aussi écrire la matrice hessienne et utiliser la proposition sur la caractérisation des fonctions concaves.
Comme les contraintes sont affines, on sait d’après le théorème 4 que le triplet
 16 1 11 
, ,−
15 3 15
est un maximum global de −f sur l’ensemble des contraintes.

Conclusion.
On vient de montrer que (x̄, ȳ, z̄) est solution de (P ) si et seulement si (x̄, ȳ, z̄) = ( 16 1 11
15 , 3 , − 15 ).

Exercice 2. En utilisant la même méthode que précédemment, trouver le minimum du problème pour :
f (x) = x21 + x22 + x23 , h1 (x) = 2x1 + x2 + x3 − 1, h2 (x) = −x1 + x2 + x3 − 1.

3.3 Optimisation sous contraintes de type inégalité


Dans cette partie, on s’intéresse au problème d’optimisation (les gi sont différentiables),

max f (x) où A = {x : g1 (x) ≥ 0, . . . , gn (x) ≥ 0}.


x∈A

Contrairement au problème précédent, l’ensemble A n’est plus une “pelure” de Rd mais un ensemble
“épais”. Si f atteint son maximum en un point de x̄ de int A = {x : g1 (x) > 0, . . . , gn (x) > 0}, on sait
que ∇f (x̄) = 0 (conditions nécessaires du premier ordre). Mais quelles propriétés vérifient nécessairement
les maxima de f qui sont sur la frontière de A ? La résolution du problème ne fait intervenir comme pour
les cas précédents que le comportement local de f , des gj et donc de A. On peut donc considérer plus
généralement un problème d’optimisation local, c’est-à-dire supposer pour un ouvert U de Rd fixé que x̄
est un maximum local de f sur A c’est-à-dire une solution du problème

max f (x) où A = {x : g1 (x) ≥ 0, . . . , gn (x) ≥ 0}.


x∈A∩U

8
Il semble alors sensé d’introduire l’ensemble J(x̄) = {j ∈ {1, . . . , n} : gj (x̄) = 0} dit ensemble des
contraintes saturées (ou actives). En effet si j ∈
/ J(x̄), on a gj (x̄) > 0 donc par continuité de gj , la condition
gj (x) > 0 est satisfaite pour x au voisinage de x̄. Ainsi, une contrainte j non saturée n’influencera pas le
problème. Il semble donc qu’une condition nécessaire d’optimalité ne fasse intervenir que les indices de
conditions saturées du problème ou plutôt les ∇gj (x̄) pour j ∈ J(x̄).

Figure 3 – Exemple d’ensemble J : J(x1 ) = ∅, J(x2 ) = {3}, J(x3 ) = {2, 3}, J(x4 ) = {3, 4}

Si les contraintes sont affines, les propriétés Q1 (ou plus généralement Q2 ) des cas d’optimisation sous
contraintes de type égalité deviennent la propriété Q3 :

Pour tout u ∈ Rd : si c1 · u ≥ 0, . . . , cp · u ≥ 0, alors ∇f (x̄) · u ≤ 0 (Q3 )


Pp
On en déduit qu’il existe des réels positifs µ1 , . . . , µp tels que ∇f (x̄) + i=1 µi ci = 0. On pourra se
persuader du résultat en l’interprétant dans R2 par exemple.

9
Théorème 5 (Karush-Kuhn-Tucker). Si x̄ est une solution locale du problème (P)

max f (x), où A = {x : g1 (x) ≥ 0, . . . , gp (x) ≥ 0}


x∈A

et si les vecteurs ∇gj (x̄), pour j ∈ J(x̄), sont linéairement indépendants (condition de qualification des
contraintes) alors x̄ vérifie les conditions KKT associées à (P).

Remarques
a) Comme prévu, seules les conditions saturées interviennent dans la condition nécessaire obtenue.
b) Il y a une nouveauté ici par rapport à l’optimisation sous contraintes d’égalité, le signe des µj pour
j ∈ J(x̄) est déterminé. Ce n’est pas réellement une surprise, les ∇gj (x̄) sont forcément dirigés
vers l’intérieur des ensembles {x : gj (x) ≥ 0} et x̄ étant un maximum local de f , ∇f (x̄) pointe
naturellement vers l’ensemble {x : gj (x) ≤ 0}. En analogie avec l’optimisation sous contraintes
d’égalités, une étude du cas affine montre que sous la condition de qualification, les vecteurs ∇f (x̄)
et ∇gj (x̄) pour j ∈ J(x̄) vérifient la condition (Q3 ).
En présence de concavité dans les données, les conditions précédentes deviennent suffisantes pour que
x̄ maximise f . En effet,
Théorème 6 (Karush-Kuhn-Tucker (concave)). Supposons f concave et les gj concaves. Alors, un
élément x̄ ∈ A qui vérifie les conditions KKT associées à (P) est un maximum de (P).

Exemple 3 (cas où la fonction objectif n’est pas concave).

Considérons le problème :

 max
 xy
 (x, y) ∈ R2


(P ) : x≥0 (µ1 )
y≥0 (µ2 )




4x2 + y 2 ≤ 8 (µ3 )

Solution :
L’ensemble A est fermé borné (le justifier !) et f est continue donc y atteint son maximum que l’on
note ū = (x̄, ȳ). Par contre f n’est pas concave. Pour s’en convaincre, on peut écrire la matrice hessienne
de f en (x, y) ∈ R2 :
 
0 1
D2 f (x, y) =
1 0
dont le déterminant est négatif, donc f n’est pas concave d’après la caractérisation des fonctions concaves
vues à la section précédente. On ne peut pas utiliser le théorème 6.

Condition de qualification des contraintes.


En posant g1 (x, y) = x, g2 (x, y) = y et g3 (x, y) = 8−4x2 −y 2 , on voit que ∇g1 (x, y) = (1, 0), ∇g2 (x, y) =
(0, 1), ∇g3 (x, y) = (−8x, −2y).

Il faut vérifier que les vecteurs sont linéairement indépendants en se restreignant aux contraintes gi
saturées aux points solution (les i tels que i ∈ J(x̄, ȳ)) Mais comme f est une fonction positive sur A et
f non nulle, le maximum (x̄, ȳ) ne peut être atteint pour x̄ = 0 ou ȳ = 0. Donc J(x̄, ȳ) ⊂ {3}, donc la
condition de qualification est nécessairement vérifiée.

10
Condition nécessaire d’optimalité.
Soit (x̄, ȳ) un maximum. D’après le Théorème 5, il existe µ1 , µ2 , µ3 tels que :


 ∇f (x̄, ȳ) + µ1 ∇g1 (x̄, ȳ) + µ2 ∇g2 (x̄, ȳ) + µ3 ∇g3 (x̄, ȳ) = 0
gi (x̄, ȳ) ≥ 0 ∀i = 1, 2, 3

(KKT ) :
 µi ≥ 0
 ∀i = 1, 2, 3
µi gi (x̄, ȳ) = 0 ∀i = 1, 2, 3

On a vu que nécessairement les contraintes g1 et g2 ne sont pas saturées en (x̄, ȳ), c’est-à-dire g1 (x̄, ȳ) >
0 et g2 (x̄, ȳ) > 0, les conditions ci -dessus entraı̂nent alors que µ1 = µ2 = 0. Donc on peut réécrire les
conditions comme suit


 ∇f (x̄, ȳ) + µ3 ∇g3 (x̄, ȳ) = 0
 g3 (x̄, ȳ) ≥ 0


µ3 ≥ 0
µ3 g3 (x̄, ȳ) = 0




x̄, ȳ > 0

C’est-à-dire :


 ȳ = 8µ3 x̄
x̄ = 2µ3 ȳ




8 − 4x̄2 − ȳ 2 ≥ 0


 µ3 ≥ 0
µ3 (8 − 4x̄2 − ȳ 2 ) = 0




x̄, ȳ > 0

Si 8−4x̄2 − ȳ 2 > 0, cela implique µ3 = 0 d’après les conditions ci-dessus. Mais dans ce cas on voit ȳ = 0
d’après la première condition, ce qui contredit la dernière condition. Donc la contrainte g3 est saturée,
8 − 4x̄2 − ȳ 2 = 0. On en déduit que ȳ 2 = 4x̄2 d’après les deux premières conditions. En remplacant dans
l’équation 8 − 4x̄2 − ȳ 2 = 0 on obtient x̄ = 1, ȳ = 2 et µ3 = 41 . Toutes les conditions sont satisfaites.

Conclusion.
Comme le couple (1, 2) est le seul candidat, c’est nécessairement l’unique solution du problème P .
Exercice 3. En suivant la même démarche que dans l’exemple précédent, résoudre le problème


 max xy
(x, y) ∈ R2


 x+y ≤6
x, y ≥ 0

Exemple 4 (cas où les contraintes ne sont pas bornées).

Considérons le problème :


 max −(x − 4)2 − (y − 4)2
(x, y) ∈ R2

(P ) :

 x+y ≤4 (µ1 )
x + 3y ≤ 9 (µ2 )

Solution :
L’ensemble A est fermé mais n’est pas borné. On peut savoir toutefois que ce problème a bien une
solution. On va utiliser la concavité de la fonction objectif.

11
Condition de qualification des contraintes.
En posant g1 (x, y) = 4 − x − y et g2 (x, y) = 9 − x − 3y, on voit que ∇g1 (x, y) = (−1, −1), ∇g2 (x, y) =
(−1, −3) pour tout (x, y) ∈ R2 sont linéairement indépendants donc la condition de qualification est
vérifiée.

Condition nécessaire d’optimalité.


Si (x̄, ȳ) est une solution de (P ) alors d’après le théorème 5, il existe µ1 , µ2 tels que


 ∇f (x̄, ȳ) + µ1 ∇g1 (x̄, ȳ) + µ2 ∇g2 (x̄, ȳ) = 0
gi (x̄, ȳ) ≥ 0, pour tout i = 1, 2

 µ1 , µ2 ≥ 0

µi gi (x̄, ȳ) = 0 pour tout i = 1, 2

C’est-à-dire


 −2(x̄ − 4) − µ1 − µ2 = 0
−2(ȳ − 4) − µ1 − 3µ2 = 0




 4 − x̄ − ȳ ≥ 0


9 − x̄ − 3ȳ ≥ 0
µ1 , µ2 ≥ 0




µ1 (4 − x̄ − ȳ) = 0




µ2 (9 − x̄ − 3ȳ) = 0

Pour déterminer les solutions de ce système, il faut envisager successivement tous les cas de figure
possibles portant sur la saturation des contraintes et procéder par élimination.
• si x̄ + ȳ = 4 et x̄ + 3ȳ = 9. Alors, on a x̄ = 23 et ȳ = 52 . Les deux premières conditions se réécrivent :

5 − µ1 − µ2 = 0

3 − µ1 − 3µ2 = 0
ce qui implique que µ1 = 6 et µ2 = −1, ce qui contredit la condition µ2 ≥ 0.
• si x̄ + ȳ = 4 et x̄ + 3ȳ < 9, donc µ2 = 0. Les deux premières équations donnent x̄ = ȳ = 2 et
µ1 = 4. Donc toutes les conditions sont satisfaites. (2, 2) est un candidat.
• si x̄ + ȳ < 4 et x̄ + 3ȳ = 9, donc µ1 = 0. Les deux premières équations impliquent que x̄ = 33
10 et
ȳ = 19
10 , ce qui contredit la condition x̄ + ȳ < 4.
• si x̄ + ȳ < 4 et x̄ + 3ȳ < 9, donc µ1 = µ2 = 0. Les deux premières équations impliquent que
x̄ = ȳ = 4, ce qui contredit la condition x̄ + ȳ < 4.
Le seul candidat potentiel pour être solution est donc le vecteur (2, 2).

Condition suffisante d’optimalité.


La fonction f est concave. En effet la matrice hessienne s’écrit pour tout (x, y) ∈ R2
 
2 −2 0
D f (x, y) =
0 −2

Les éléments diagonaux sont négatifs et le déterminant vaut 4. Donc d’après la caractérisation vue
précédemment, f est bien concave. De plus, les contraintes sont affines (donc en particulier concaves),
donc le théorème 6 (condition suffisante) s’applique.

Conclusion.
On vient de montrer que (x̄, ȳ) est solution de (P ) si et seulement si (x̄, ȳ) = (2, 2). Donc (2, 2) est
l’unique solution.

12
3.4 Optimisation sous contraintes de type mixte
Dans cette partie, on s’intéresse au problème d’optimisation général :

max f (x) où A = {x : g1 (x) ≥ 0, . . . , gn (x) ≥ 0, h1 (x) = 0, . . . , hp (x) = 0}.


x∈A

où les hi et les gj sont différentiables.


En combinant les remarques faites dans les cas traités précédemment, on obtient le théorème suivant :

Théorème 7. Si x̄ est une solution locale du problème (P) et si les vecteurs ∇hj (x̄), pour j = 1, ..., p,
et ∇gk (x̄), pour k ∈ J(x̄), sont linéairement indépendants (condition de qualification des contraintes),
alors x̄ vérifie les conditions KKT associées.
Comme dans les cas similaires déjà évoqués, les conditions du théorème KKT deviennent suffisantes
en présence de concavité dans les données. Outre les hypothèses de différentiabilité qui ont toujours cours,
nous supposons ici,

 f est concave,
(C) les fonctions gj : Rd → R sont concaves,
les fonctions hi : Rd → R sont affines (ou bien hi et −hi sont concaves !).

Théorème 8. Dans le contexte défini par (C), les conditions KKT sont toujours suffisantes pour que x̄
soit un maximum de f sur A.
Exemple 5 (pas de solution unique).

Considérons le problème (voir figure, pour une illustration des


contraintes) :


 max x2 + y 2 + z 2
3
 (x, y, z) ∈ R



x≥0 (µ1 )

(P ) :

 y ≥ 0 (µ2)
z ≥ 0 (µ )

2



x + y + z = 1 (λ)

Solution :

Figure 4 – Exemple

13
On va vérifier que la solution du problème (graphiquement évidente) est atteinte aux points (1, 0, 0),
(0, 1, 0) et (0, 0, 1).
A est un fermé borné de R3 (le justifier !) et f continue sur A donc f atteint ses bornes.

Condition de qualification des contraintes.


Soit donc ū = (x̄, ȳ, z̄) une solution. En posant g1 (x, y, z) = x, g2 (x, y, z) = y, g3 (x, y, z) = z et
h(x, y, z) = x + y + z − 1 on a ∇g1 (ū) = (1, 0, 0), ∇g2 (ū) = (0, 1, 0), ∇g3 (ū) = (0, 0, 1) et ∇h(ū) = (1, 1, 1).

J(ū) ne peut pas être l’ensemble {1, 2, 3}, sinon cela signifie x̄ = ȳ = z̄ = 0, mais dans ce cas-là
x̄ + ȳ + z̄ = 0 ne vérifie pas la contrainte h. Il en résulte que la famille de vecteurs à considérer est
{(1, 1, 1), ei } ou {(1, 1, 1), ei , ej } avec i, j = 1, ..., 3, et i 6= j et où ei est le vecteur de R3 dont la ième
composante vaut 1, et 0 pour les autres. Clairement les vecteurs de ces familles sont toujours linéairement
indépendants. Donc la condition de qualification du théorème 7 est satisfaite.

Condition nécessaire d’optimalité.


On peut donc appliquer le théorème 7 (condition nécessaire) : il existe λ et µ1 , µ2 , µ3 tels que


 2x̄ + λ + µ1 = 0
2ȳ + λ + µ2 = 0




 2z̄ + λ + µ3 = 0


x̄, ȳ, z̄ ≥ 0
µ 1 , µ2 , µ3 ≥ 0




µ 1 x̄, µ2 ȳ, µ3 z̄ = 0




x̄ + ȳ + z̄ = 1

Dans l’étape précédente nous avons déjà exclu le cas où x̄ = ȳ = z̄ = 0.


Il reste d’autres cas à identifier.
• si x̄, ȳ, z̄ > 0. Alors µ1 , µ2 , µ3 = 0. En utilisant les trois premières équations, on obtient : x̄ = ȳ = z̄
et λ = − 32 . La dernière condition nous donne alors le candidat ( 13 , 31 , 13 ). Toutes les conditions sont
vérifiées.
• si x̄, ȳ > 0 et z̄ = 0. Alors µ1 , µ2 = 0. En utilisant les deux premières conditions, on obtient x̄ = ȳ.
Puis, on obtient λ = −1 et enfin µ3 = 1. La dernière équation nous donne le candidat : ( 12 , 12 , 0).
Toutes les conditions sont vérifiées.
• si x̄ > 0, et ȳ = z̄ = 0. On obtient λ = −2, µ1 = 0, µ2 = µ3 = 2. Le candidat est clairement
(1, 0, 0). Toutes les conditions sont vérifiées.
Par symétrie on obtient également les candidats : (0, 0, 1), (0, 1, 0), (0, 12 , 12 ), ( 12 , 0, 12 ).

Conclusion. En comparant les valeurs de f sur ces différentes solutions potentielles, on obtient bien le
résultat.

14
Exercices sur le Chapitre 3

Exercice 1
On considère, dans R2 , le problème P:

max(x 1)2 + y 2 sous

3x + y = 12
x 0
y 0

1. Etablir que le problème P possède nécessairement (au moins) une solution.


2. Que peut-on dire des conditions de quali…cation du problème?
3. Ecrire les conditions KKT du problème P.

4. Déduire les solutions du problème P.

Exercice 2
On considère, dans R2 , le problème P:

max [ln(1 + x) + ln(1 + y)] sous

4x + 3y 10
y 2x
x 0

1. Démontrer que, sans résoudre le problème P, on peut a¢ rmer qu’il possède une solution.
2. Montrer que les conditions de quali…cation du problème P sont satisfaites en tout point.
3. Ecrire les conditions de Karush, Kuhn et Tucker (KKT) du problème P.
4. Les conditions KKT seront-elles nécessaires?
5. Les conditions KKT seront-elles su¢ santes?
6. En admettant que la contrainte x 0 n’est pas saturée à l’optimum, résoudre le problème P grâce
aux conditions KKT.
7. Démontrer qu’e¤ectivement, la contrainte x 0 n’est pas saturée à l’optimum.

Exercice 3
On considère, dans R2 , g(x; y) = 2x2 + y 2 et le problème P:

max g(x; y) sous

2x + y 3
x 0
y 0

1. L’ensemble des contraintes, c’est-à-dire l’ensemble A = (x; y) 2 R2+ : 2x + y 3 est-il borné?

2. L’ensemble A est-il fermé?


3. Ecrire les contraintes de quali…cation du problème P et montrer qu’elles sont satisfaites.
4. Ecrire les conditions KKT du problème P.

5. Soit (x; y) 2 R2 tel que 2x + y < 3. Montrer qu’il existe (x0 ; y 0 ) 2 A g(x0 ; y 0 ) > g(x; y).
6. Déduire des questions qui précèdent les trois candidats solutions du problème P et conclure.

Vous aimerez peut-être aussi