2015 223 Ee383

Université Mohamed Chérif Messaadia de Souk-Ahras
Faculté des Sciences et Technologie

Département des Mathématiques et Informatique
Cours d ’Optimisation Sans

Contraintes
Conformément aux programmes
LMD : Mathématiques
Mathématiques et informatique
Dr BELLOUFI MOHAMMED
Site web :http ://www.univ-soukahras.dz/fr/pro…le/mbellou…

E-mail : m.belloufi@univ-soukahras.dz
Octobre 2015
0.1. OPTIMISATION SANS CONTRAINTES
OPTIMISATION SANS CONTRAINTES

Conformément aux programmes
LMD : Mathématiques
Mathématiques et informatique
0.1 Optimisation sans contraintes

Unité d’enseignement : Méthodologie
Matière : Optimisation sans contraintes
Crédits :5
Coe¢ cient :2
Objectifs de l’enseignement (Décrire ce que l’étudiant est censé avoir acquis comme
compétences après le succès à cette matière –maximum 3 lignes).
Connaissances préalables recommandées (descriptif succinct des connaissances
requises pour pouvoir suivre cet enseignement –Maximum 2 lignes).
Contenu de la matière :
Chapitre1 : Quelques rappels de calcul di¤érentiel, Convexité
1.1 Di¤érentiabilité, gradient, matrice hessienne
1.2 Développement de Taylor
1.3 Fonctions convexes
Chapitre2 : Minimisation sans contraintes
2.1 Résultats d’existence et d’unicité
2.2 Conditions d’optimalité du 1er ordre
2.3 Conditions d’optimalité du 2nd ordre
Chapitre3 : Algorithmes
3.1 Méthode du gradient
3.2 Méthode du gradient conjugué
3.3 Méthode de Newton
3.4 Méthode de relaxation
3.5 Travaux pratiques
Mode d’évaluation : Examen (60%) , contrôle continu (40%)
Dr.Bellou… Mohammed - U Souk Ahras Optimisation

Table des matières
Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1 Quelques rappels de calcul di¤érentiel, Convexité 5

1.1 Di¤érentiabilité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.1.1 Dérivée partielle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.1.2 Gradient . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.1.3 Matrice Hessienne . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.1.4 Dérivée directionnelle . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.1.5 Direction de descente . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.2 Développement de Taylor . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.3 Fonctions convexes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.3.1 Propriétés des ensembles convexes . . . . . . . . . . . . . . . . . . . 13
1.3.2 Fonction convexe . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.4 Travaux dirigés 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
1.5 Suggestions et Corrigés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2 Minimisation sans contraintes 19

2.1 Résultats d’existence et d’unicité . . . . . . . . . . . . . . . . . . . . . . . 20
2.2 Conditions d’optimalité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.2.1 Conditions nécessaires d’optimalité . . . . . . . . . . . . . . . . . . 23
2.2.2 Conditions su¢ santes d’optimalité . . . . . . . . . . . . . . . . . . 25
2.3 Travaux dirigés 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
3 Algorithmes 31
3.0.1 Convergence globale . . . . . . . . . . . . . . . . . . . . . . . . . . 31
3.0.2 Vitesse de convergence . . . . . . . . . . . . . . . . . . . . . . . . . 32
3.1 Méthode du gradient . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
i
TABLE DES MATIÈRES
3.1.1 Algorithme du Gradient . . . . . . . . . . . . . . . . . . . . . . . . 33

3.1.2 Méthode du gradient à pas constant . . . . . . . . . . . . . . . . . . 35
3.1.3 Méthode du gradient à pas optimal . . . . . . . . . . . . . . . . . . 36
3.2 Méthode du gradient conjugué . . . . . . . . . . . . . . . . . . . . . . . . . 37
3.2.1 Le principe général d’une méthode à directions conjuguées . . . . . 37
3.2.2 Méthode de gradient conjugué dans le cas quadratique . . . . . . . 39
3.2.3 Méthode du gradient conjugué dans le cas non quadratique . . . . . 46
3.3 Méthode de Newton . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
3.3.1 Description de la méthode . . . . . . . . . . . . . . . . . . . . . . . 48
3.3.2 Avantages et inconvénients . . . . . . . . . . . . . . . . . . . . . . . 49
3.4 Méthode de quasi Newton ou quasi-Newtonniennes . . . . . . . . . . . . . 51
3.4.1 Formules de mise à jour de l’approximation du Hessien . . . . . . . 52
3.4.2 Méthode de correction de rang un . . . . . . . . . . . . . . . . . . . 53
3.4.3 Méthode de Davidon Fletcher Powell (DFP) . . . . . . . . . . . . . 54
3.4.4 Méthode de Broyden, Fletcher, Goldfarb et Shanno(BFGS) . . . . . 57
3.4.5 Les méthodes de classe Broyden . . . . . . . . . . . . . . . . . . . . 59
3.5 Méthode de relaxation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
3.6 Travaux pratiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
3.7 Travaux dirigés 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
ii
0.2. INTRODUCTION
0.2 Introduction
L’optimisation est une branche des mathématiques et de l’informatique en tant que
disciplines, cherchant à modéliser, à analyser et à résoudre analytiquement ou numérique-
ment les problèmes qui consistent à déterminer quelles sont la ou les solution(s) satisfaisant
un objectif quantitatif tout en respectant d’éventuelles contraintes.
Dans la vie courante, nous sommes fréquemment confrontés à des problèmes "d’op-
timisation" plus ou moins complexes. Cela peut commencer au moment où l’on tente de
ranger son bureau, de placer son mobilier, et aller jusqu’à un processus industriel, par
exemple pour la plani…cation des di¤érentes tâches. Ces problèmes peuvent être exprimés
sous la forme générale d’un "problème d’optimisation".
L’optimisation joue un rôle important en recherche opérationnelle (domaine à la fron-
tière entre l’informatique, les mathématiques et l’économie), dans les mathématiques ap-
pliquées (fondamentales pour l’industrie et l’ingénierie), en analyse et en analyse numé-
rique, en statistique pour l’estimation du maximum de vraisemblance d’une distribution,
pour la recherche de stratégies dans le cadre de la théorie des jeux, ou encore en théorie
du contrôle et de la commande.
L’optimisation peut être dé…nie comme la science qui détermine la meilleure solution à
certains problèmes mathématiquement dé…nie, qui sont souvent des modèles de physique
réal. C’est une technique qui permet de "quanti…er" les compromis entre des critères
parfois non commensurables ([2004]).
L’optimisation recouvre l’étude des critères d’optimalité pour les di¤érents problèmes,
la détermination des méthodes algorithmiques de solution, l’étude de la structure de telles
méthodes et l’expérimentation de l’ordinateur avec ces méthodes avec vrais problèmes de
la vie ([1987]).
D‘un point de vue mathématique, l‘optimisation consiste à rechercher le minimum
ou le maximum d’une fonction avec ou sans contraintes.
L’optimisation possède ses racines au 18ième siècle dans les travaux de :
-Taylor, Newton , Lagrange, qui ont élaboré les bases des développements limités.
- Cauchy ([1847]) fut le premier à mettre en œuvre une méthode d’optimisation,
méthode du pas de descente, pour la résolution de problèmes sans contrainte.
Il faut attendre le milieu du vingtième siècle, avec l’émergence des calculateurs et
surtout la …n de la seconde guerre mondiale pour voir apparaître des avancées spectacu-
laires en termes de techniques d’optimisation. A noter, ces avancées ont été essentiellement
obtenues en Grande Bretagne.
Aujourd’hui, tous les systèmes susceptibles d’être décrits par un modèle mathématique
sont optimisés. La qualité des résultats et des prédictions dépend de la pertinence du
Dr.Bellou… Mohammed - U Souk Ahras 1 Optimisation

0.2. INTRODUCTION
modèle, de l’e¢ cacité de l’algorithme et des moyens pour le traitement numérique.

Les domaines d’applications sont extrêmement variés : optimisation d’un trajet, de
la forme d’un objet, d’un prix de vente, d’une réaction chimique, du contrôle aérien,
du rendement d’un appareil, du fonctionnement d’un moteur, de la gestion des lignes
ferroviaires, du choix des investissements économiques, de la construction d’un navire, etc.
L’optimisation de ces systèmes permet de trouver une con…guration idéale, d’obtenir un
gain d’e¤ort, de temps, d’argent, d’énergie, de matière première, ou encore de satisfaction.
Très loin de constituer une liste exhaustive, ces quelques exemples attestent de la
variété des formulations et pré…gure la diversité des outils mathématiques susceptibles de
résoudre ces problèmes.
Plus formellement, l’optimisation est l’étude des problèmes qui s’expriment de la ma-
nière suivante.
Étant donné une fonction f : Rn ! R, trouver un élément x de Rn tel que f (x) f (x)
pour tout x 2 R:
On dit que l’on cherche à minimiser la fonction f sur l’ensemble R. La fonction f porte
divers noms : fonction-coût ou simplement coût, fonction-objectif ou simplement objectif,
critère, etc.
Cela permet de varier le vocabulaire.
L’ensemble des points de R qui satisfont cette condition est appelé l’ensemble ad-
missible et les points de sont appelés les points admissibles du problème. On dit que
le problème est réalisable si est non vide (l’ensemble admissible étant souvent dé…ni de
manière implicite, son caractère non vide n’est pas nécessairement évident, ce qui justi…e
le besoin de ce concept de réalisabilité).
Le point x est appelé solution du problème d’optimisation (ou minimum ou minimi-
seur). On l’appelle aussi parfois une solution globale pour le distinguer des notions locales
introduites ci-dessous.
L’optimisation est découpée en sous-disciplines qui se chevauchent, suivant la forme
de la fonction objectif et celle des contraintes : l’optimisation en dimension …nie ou in…nie
(on parle ici de la dimension de l’espace vectoriel des variables à optimiser), l’optimisa-
tion continue ou combinatoire (les variables à optimiser sont discrètes dans ce dernier
cas), l’optimisation di¤érentiable ou non lisse (on quali…e ici la régularité des fonctions
dé…nissant le problème), l’optimisation linéaire (fonctions a¢ nes), quadratique (objectif
quadratique et contraintes a¢ nes), semi-dé…nie positive (la variable à optimiser est une
matrice dont on requiert la semi-dé…nie positivité), copositive (la variable à optimiser
est une matrice dont on requiert la copositivité), conique (généralisation des disciplines
précédentes, dans laquelle on minimise une fonction linéaire sur l’intersection d’un cône
et d’un sous-espace a¢ ne), convexe (fonctions convexes), non linéaire, la commande op-

0.2. INTRODUCTION
timale, l’optimisation stochastique (en) et robuste (en) (présence d’aléas), l’optimisation

multicritère (un compromis entre plusieurs objectifs contradictoires est recherché), l’op-
timisation algébrique (fonctions polynomiales), l’optimisation bi-niveaux, l’optimisation
sous contraintes de complémentarité, l’optimisation disjonctive (l’ensemble admissible est
une réunion d’ensembles), etc.
Cette abondance de disciplines provient du fait que pratiquement toute classe de pro-
blèmes modélisables peut conduire à un problème d’optimisation, pourvu que l’on y intro-
duise des paramètres à optimiser. Par ailleurs, les conditions d’optimalité de ces problèmes
d’optimisation apportent parfois des expressions mathématiques originales qui, par le mé-
canisme précédent, conduisent à leur tour à de nouveaux problèmes d’optimisation.
L’optimisation linéaire étudie le cas où la fonction objectif et les contraintes carac-
térisant l’ensemble A sont linéaires. C’est une méthode très employée pour établir les
programmes des ra¢ neries pétrolières, mais aussi pour déterminer la composition la plus
rentable d’un mélange salé, sous contraintes, à partir des prix de marché du moment.
L’optimisation linéaire en nombres entiers étudie les problèmes d’optimisation linéaire
dans lesquels certaines ou toutes les variables sont contraintes de prendre des valeurs
entières. Ces problèmes peuvent être résolus par di¤érentes méthodes : séparation et
évaluation, méthode des plans sécants.
L’optimisation quadratique étudie le cas où la fonction objectif est une forme quadra-
tique (avec contraintes linéaires)
L’optimisation non linéaire étudie le cas général dans lequel l’objectif ou les contraintes
(ou les deux) contiennent des parties non linéaires, éventuellement non-convexes.
L’optimisation stochastique étudie le cas dans lequel certaines des contraintes dé-
pendent de variables aléatoires. En optimisation robuste, les aléas sont supposés être
situés dans des intervalles autour de positions nominales et on cherche à optimiser le
système soumis à de tels aléas, dans le pire des cas.
La programmation dynamique utilise la propriété qu’une solution se compose nécessai-
rement de sous-solutions optimales (attention : le contraire n’est pas vrai en général) pour
décomposer le problème en évitant l’explosion combinatoire. Elle est utilisable lorsque la
fonction objectif est une somme de fonctions monotones croissantes dont les arguments
sont des inconnues distinctes. C’est la programmation dynamique qui permet par exemple :
- aux avionneurs de trouver les plans de décollage optimaux de leurs engins,
- aux ingénieurs de bassin de répartir la production minière entre leurs di¤érents puits,
- aux producteurs d’électricité de plani…er la marche des usines hydroélectriques,
- aux media planners de répartir e¢ cacement un budget de publicité entre di¤érents
supports.
Formellement on peut écrire ce problème noté (P ) de la manière suivante :

0.2. INTRODUCTION
(P ) minimiser f (x) x 2 Rn
Remarquons toute fois que comme on a
sup f (x) = inf ( f (x))

x2Rn x2Rn
alors le problème de maximisation d’une fonction f est équivalent au problème de mini-

misation de f . L’équivalence veut dire ici que les solutions sont les mêmes et que les
valeurs optimales sont opposées. En particulier, une méthode pour analyser et résoudre
un problème de minimisation pourra être utilisée pour analyser et résoudre un problème
de maximisation.
Parmi les plus anciennes méthodes utilisées pour résoudre les problèmes du type (P ),
on peut citer la méthode du Gradient conjugué.
De nombreuses contributions apparaissent ensuite dans les années soixante. G. Zouten-
dijk ([1960]), C. W. Carroll ([1961]), P. Wolfe ([1961]), R. Fletcher et M. J. D. Powell
([1963]),C. Reeves ([1964]),A. A. Goldstein ([1965]) et A. V. Fiacco et G. P. McCormick
([1968]) pour la programmation non linéaire ainsi que E. Polak et G. Ribière([1969]), B.T.
Polyak ([1969]) et J.F. Price ([1969]).
Le problème que l’on étudie ici celui de la recherche du minimum (maximum) d’une
fonction réelle f : Rn ! R .
Beaucoup de problèmes peuvent se formuler de cette manière .D’autre part, dans les
problèmes ou les variables x1 ; :::; xn sont astreintes à véri…er des conditions supplémen-
taires (du type : gi (xi ) 0; i = 1; :::m ) on peut dans certaines conditions se ramener à
des problèmes d’optimisation sans contraintes.

Chapitre 1
Quelques rappels de calcul

di¤érentiel, Convexité
Dans ce chapitre, on dé…nit et on introduit les outils fonctionnels de base nécessaires

pour l’optimisation sans contraintes.
1.1 Di¤érentiabilité
On se place dans Rn , n < 1, considéré comme un espace vectoriel normé muni de la
norme euclidienne notée k:k.
Soit un ouvert de Rn :
1.1.1 Dérivée partielle
Dé…nition 1.1.1 Soit f : Rn ! R une fonction continue. La fonction notée ri f (x) :

Rn ! R; également notée @f =@xi est appelée iieme dérivée partielle de f et est dé…nie par
f (x1 ; :::; xi + ; :::; xn ) f (x1 ; :::; xi ; :::; xn )

lim :
!0
Cette limite peut ne pas exister.
1.1.2 Gradient
Si les dérivées partielles @f =@xi exixtent pour tout i; le gradient de f est dé…ni de la
façon suivante.
5
1.1. DIFFÉRENTIABILITÉ
Dé…nition 1.1.2 On note par
@f @f
(rf (x))T = ; :::; ,
@x1 @xn (x)
le gradient de f au point x = (x1 ; ::; xn ):
Le gradient jouera un role essentiel dans le développement et l’analyse des algorithmes

d’optimisation.
Exemple 1.1.1 Soit f (x1 ; x2 ; x3 ) = ex1 + x21 x3 x1 x2 x3 : Le gradient de f est donné par
0 1
ex1 + 2x1 x3 x2 x3
B C
rf (x1 ; x2 ; x3 ) = @ x1 x3 A.
2
x1 x1 x2
@f
Remarque 1.1.1 i) (x) = 0.
@0
@f @f
ii) (x) = (x).
@xi @ei
On note e1 ; e2 ; :::en les éléments de la base canonique de Rn , où ei est le vecteur
de Rn donné par :
(
6 i
0 Si j =
(ei )j = ij = 8i; j = 1; 2; :::; n,
1 Si j = i
(symboles de Kronecker).
Remarque 1.1.2 Nous rappellons aussi la formule :
@f
(x) = h5f (x); hi ; 8x 2 8h 2 Rn :
@h
Proposition. 1.1.1 (Gradient de la composée) Supposons qu’on deux ouverts

Rn et U R et deux fonctions f : ! R et g : U ! R avec en plus f ( ) U (on peut
alors dé…nir g f : ! R). Supposons que f; g sont de classe C 1 : Alors g f est aussi
de classe C 1 avec en plus
r(g f )(x) = g 0 (f (x)) 5 f (x) 8x 2 .
Exemple 1.1.2 f (x1 ; x2 ) = x21 x2 + 2, g (x) = 2x + 1.

1.1.3 Matrice Hessienne

Dé…nition 1.1.3 On appelle Hessien de f la matrice symétrique de Mn (R)
@ 2f
H(x) = r(rT f )(x) = r2 f (x) = (x); i = 1; :::; n; j = 1; :::; n:
@xi @xj
Alors 0 1
@2f @2f @2f
@x1 @x1 @x1 @x2 @x1 @xn
B @2f @2f @2f C
B C
H(x) = B
B
@x2 @x1
..
@x2 @x2
.. ..
@x2 @xn
.. C:
C
@ . . . . A
@2f @2f @2f
@xn @x1 @xn @x2 @xn @xn
Remarque 1.1.3 Si f 2 C 2 ( ) alors 52 f (x) est une matrice symmétrique 8x 2

(c’est le Théorème de Schwarz).
Exemple 1.1.3 Soit f (x1 ; x2 ; x3 ) = ex1 + x21 x3 x1 x2 x3 : L’hessienne de f est donné par
0 1
ex1 + 2x3 x3 2x1 x2
B C
H (x) = @ x3 0 x1 A:
2x1 x2 x1 0
Dé…nition 1.1.4 On dit que x est un point stationnaire de f si rf (x ) = 0.
Proposition. 1.1.2 (Lien entre r et r2 ) a) La i-ème ligne de 52 f (x) Jacobienne du

i-ème élément de 5f:
b) On a
52 f (x)h = r h5f (x); hi ; 8x 2 8h 2 Rn :
Preuve. a) évidente
b) On a :
!
@ @ Xn
@f
hrf (x); hi = (x)hj
@xi @xi j=1
@xj
Xn
@ 2f
= (x)hj
i=1
@xi xj
= (52 f (x)h)i .
Exemple 1.1.4 Si f : Rn ! R est une fonction constante alors 5f = 52 f = 0:

Soit f : Rn ! R dé…nie par
f (x) =< a; x > 8x 2 Rn ;
où a 2 Rn est un vecteur donné (c’est à dire, f est une fonction linéaire), Alors on calcule
@f
facilement : = ak ; donc
@xk
5f = a
(le gradient est constant).

Ceci nous donne
52 f = 0:
Corollaire 1.1.1 Soit f : Rn ! R donnée par
f (x) =< Ax; x > 8x 2 Rn :
où A 2 Mn (R) est une matrice carrée, réelle, de taille n (c’est à dire, f est la fonction
quadratique associée à la matrice A). Alors pour un p 2 f1; 2; :::ng …xé, on peut écrire
X
n X
n X
n X
n
f (x) = Ai;j xi xj = App x2p + Apj xp xj + Aip xi xp + Aij xi xj ,
i;j=1 j=1;j6=p i=1;i6=p i;j=1;i6=p;j6=p
ce qui nous donne
@f Xn Xn Xn Xn
= 2App xp + Apj xj + Aip xi = Apj xj + Aip xi = (Ax)p + (AT x)p :
@xp j=1;j6=p i=1;i6=p j=1 i=1
Nous avons donc obtenu :
5f (x) = (A + AT )x; 8x 2 Rn :
On peut aussi écrire
@f X n
(x) = (A + AT )ik xk 8i = 1; :::; n:
@xi k=1
On a alors immédiatement :
@ 2f
(x) = (A + AT )ij; 8i; j = 1; :::; n ,
@xi @xj

c’est à dire
r2 f (x) = A + AT ; 8x 2 Rn :
Donc la hessienne de f est constante.
Remarque 1.1.4 En particulier, si A est symmétrique (c’est à dire A = AT ) alors
5 hAx; xi = 2Ax; 8x 2 Rn :
52 hAx; xi = 2A; 8x 2 Rn :
1.1.4 Dérivée directionnelle

Dé…nition 1.1.5 On appelle dérivée directionnelle de f dans la direction d au point x,
notée f (x; d), la limite (éventuellement 1) du rapport :
f (x + hd) f (x)
lorsque h tend vers 0:
h
Autrement dit :
f (x + hd) f (x)
f (x; d) = lim = rT f (x)d:
h!0 h
Remarque 1.1.5 Si kdk = 1 : la dérivée directionnelle est le taux d’accroissement de

f dans la direction d au point x.
Remarque 1.1.6 Pour tout x 2 et h 2 Rn on note
@f 1
(x) = lim [f (x + th) f (x)] = g 0 (0);
@h t!0 t
(c’est la dérivée directionnelle de f en x de direction h) où on a noté g(t) = f (x + th):
Remarque 1.1.7 Le taux d’accroissement est maximal dans la direction du gradient

Le gradient indique la direction de la plus grande pente.
Exemple 1.1.5 Soit f (x1 ; x2 ; x3 ) = ex1 + x21 x3 x1 x2 x3 et soit

0 1
d1
B C
d = @ d2 A :
d3

La dérivée directionnelle de f dans la direction d est
(d1 d2 d3 ) rf (x1 ; x2 ; x3 ) = d1 (ex1 + 2x1 x3 x2 x3 ) d2 x1 x3 + d3 x21 x 1 x2
ou rf (x1 ; x2 ; x3 ) est donné par

0 1
ex1 + 2x1 x3 x2 x3
B C
rf (x1 ; x2 ; x3 ) = @ x1 x3 A:
x21 x1 x2
Dé…nition 1.1.6 (Fonction di¤érentiable) Soit f : Rn ! R une fonction continue.

Si, pour tout d 2 Rn ; la dérivée directionnelle de f dans la direction d existe, alors la
fonction f est dite di¤érentiable.
Remarque 1.1.8 Cette noyion est parfois appelée Gateaux-di¤érentiabilité , en ce

sens que d’autres type de di¤érentiabilité peuvent etre dé…nis (comme la di¤érentiabilité
au sens Fréchet).
La dérivée directionnelle donne des informations sur la pente de la fonction dans la

direction d, tout comme la dérivée donne des informations sur la pente des fonctions
à une variable. Notamment, la fonction est croissante dans la diréction d si la dérivée
directionnelle est strictement positive et décroissante si elle est strictement négative. Dans
ce dernier cas, nous dirons qu’il s’agit d’une direction de descente.
1.1.5 Direction de descente

Soit f : Rn ! R une fonction di¤érentiable. Soient x; d 2 Rn . La direction d est une
direction de descente en x si
dT 5 f (x) < 0:
Le terminologie <<direction de descente>> est justi…ée par le théorème suivant.
Théorème 1.1.1 Soit f : Rn ! R une fonction di¤érentiable. Soient x 2 Rn tel que

5f (x) 6= 0 et d 2 Rn . Si d est une direction de descente, alors il existe > 0 tel que
f (x + d) < f (x) ; 80 < .
De plus, pour tout < 1; il existe ^ > 0 tel que
f (x + d) < f (x) + 5 f (x)T d ,
pour tout 0 < ^:

Preuve. ([1])
Théorème 1.1.2 (plus forte pente) Soit f : Rn ! R une fonction di¤érentiable.

Soient x 2 Rn et d = 5f (x): Alors pour tout d 2 Rn tel que kdk = krf (x)k ; on
a
dT 5 f (x) d T 5 f (x) = 5f (x)T 5 f (x):
Preuve. ([1])
Exemple 1.1.6 Soit f (x) = 12 x21 + 2x22 et soit x = (1 1)T : Nous considérons trois direc-
tions ! ! !
1 1 1
d1 = rf (x) = ; d2 = et d3 = :
4 1 3
La dérivée directionnelle de f dans chacune de ces directions vaut :
dT1 rf (x) = 17;

dT2 rf (x) = 5;
dT3 rf (x) = 11:
Théorème 1.1.3 (Plus forte descente) Soit f : Rn ! R une fonction di¤érentiable.

Soient x 2 Rn et d = 5 f (x): Alors pour tout d 2 Rn tel que kdk = krf (x)k ; on a
5 f (x)T 5 f (x) = d T
5 f (x) dT 5 f (x);
et la diréction opposée au gradient est celle ou la fonction a la plus forte descente.
Preuve. ([1])
Exemple 1.1.7 Soit f (x) = 12 x21 + 2x22 et soit x = (1 1)T : Nous considérons trois direc-
tions ! ! !
1 1 1
d1 = rf (x) = ; d2 = et d3 = :
4 1 3
La dérivée directionnelle de f dans chacune de ces directions vaut :
dT1 rf (x) = 17;

dT2 rf (x) = 5;
dT3 rf (x) = 11:

1.2. DÉVELOPPEMENT DE TAYLOR
1.2 Développement de Taylor

La formule de Taylor est un outil important en convexité. Nous la rappelons dans le
cas général.
Soit Rn ouvert, f : ! R; a 2 et h 2 Rn tels que [a; a + h]. Alors :
1. Si f 2 C 1 ( ) alors
i) Formule de Taylor à l’ordre 1 avec reste intégral

Z1
f (a + h) = f (a) + hrf (a + th); hi dt:
0
ii) Formule de Taylor - Maclaurin à l’ordre 1

f (a + h) = f (a)+ < rf (a + h); h > :
iii) Formule de Taylor - Young à l’ordre 1
f (a + h) = f (a)+ < rf (a); h > +o(khk):
2. Si f 2 C 2 ( ) alors
i) Formule de Taylor à l’ordre 2 avec reste intégral

Z1
f (a + h) = f (a)+ < rf (a); h > + (1 t) < r2 f (a + th)h; h > dt:
0
ii) Formule de Taylor - Maclaurin à l’ordre 2

1
f (a + h) = f (a)+ < rf (a); h > + < r2 f (a + h)h; h > avec 0 < < 1:
2
iii) Formule de Taylor - Young à l’ordre 2
1
f (a + h) = f (a)+ < rf (a); h > + < r2 f (a)h; h > +o(khk2 ):
2
Remarque 1.2.1 Dans la proposition précédente la notation o(khkk ) pour k 2 N signi…e

une expression qui tend vers 0 plus vite que khkk (c’est à dire, si on la divise par khkk ,
le résultat tend vers 0 quand khk tend vers 0).
Théorème 1.2.1 Soit f : ! R de classe C n+1 ( ): Si le segment [a; a + h] est contenu

dans U; on a :
1 (n) n R1 (1 t)n (n+1)

0
f (a + h) = f (a) + f (a):h + ::: + f (a) (h) + f (a + th) (h)(n+1) dt:
n! 0 n!
( Reste integral)

1.3. FONCTIONS CONVEXES
1.3 Fonctions convexes

La convexité est à la base une propriété géométrique. On voit assez bien ce qu’est un
objet convexe dans un espace à deux ou trois dimentions. nous allons maintenant montrer
comment cette propriété peut aussi s’appliquer aux fonctions de Rn dans R:
Dé…nition 1.3.1 Un ensemble C Rn est dit convexe si pour tout couple (x; y) 2 C 2 et
8 2 [0; 1] on a ;
x + (1 ) y 2 C:
1.3.1 Propriétés des ensembles convexes

la dé…nition d’ensemble convexe peut s’enterpréter en disant que le segment reliant
x et y doit être dans C.
X
k
n
Soit x1 ; x2 ; :::; xk 2 R et tj telle que tj 0 et tj = 1: Tout expréssion de la
j=1
forme
X
k
tj xj :
j=1
S’appelle combinaison convexe des points xj ou barycentre.

tout entier est un ensemble convexe, de même qu’un singleton fag :
p
\
soit la famille fCi gi=1:::p d’ensembles convexes et S = Ci : Alors S est convexe.
i=1
1.3.2 Fonction convexe

Dé…nition 1.3.2 (fonction convexe) Soit C Rn un ensemble convexe non vide. Une
fonction f : C ! R est convexe si et seulement si
8x; y 2 C; 8t 2 [0; 1] ; f (tx + (1 t)y) tf (x) + (1 t)f (y):

Une fonction f est concave si f convexe. On dira que f est strictement convexe dans
C si et seulement si :
8x; y 2 C; 8t 2 [0; 1] ; f (tx + (1 t)y) < tf (x) + (1 t)f (y):
Dé…nition 1.3.3 (Fonction fortement ou uniformément convexe de module > 0)

Soit C Rn un ensemble convexe non vide: Une fonction f : C ! R est fortement ou
uniformément convexe de module > 0 si
f (tx + (1 t)y) tf (x) + (1 t)f (y) t(1 t) kx yk2 ; 8x; y 2 C 2 ; 8t 2 [0; 1] :

2
Dé…nition 1.3.4 (Fonction convexe di¤érentiable) Soit C Rn , f : Rn ! R et

b, s’il existe un vecteur A 2 Rn et une
b 2 int(C). f est dite di¤érentiable au point x
x
fonction : Rn ! R telle que
f (x) = f (b
x) + A(x b) + kx
x bk (b
x x; x b);
x
où : (b
x; x b) ! 0: On peut note le vecteur A comme suit :
x
x!b
x
@f (b
x) @f (b
x)
A = Of (b
x) = ( ; ::::; ):
@x1 @xn
Dé…nition 1.3.5 (Fonction convexe deux foix di¤érentiable) Soit C Rn non vide
et f : Rn ! R:est dite deux foix di¤érentiable ou point x
b 2 int(C) s’il existe un vecteur
Of (b
x) et une matrice symétrique H(bx) d’ordre (n; n) appellèe matrice hessienne, et une

fonction : Rn ! R tels que
1
x) + Of (b
8x 2 C : f (x) = f (b x)T (x b) + (x
x b)T H(b
x x)(x b) + kx
x bk2 (b
x x; x b);
x
2
où : (b
x; x b) ! 0:On peut écrire :
x
x!b
x
2 3
@ 2 f (^
x) @ 2 f (^
x) @ 2 f (^
x)
6 @x1 @x1 @x1 @x2 @x1 @xn 7
6 2 7
6 @ f (^ x) @ 2 f (^
x) @ 2 f (^
x) 7
6 7
6 @x2 @x1 @x2 @x2 @x2 @xn 7
H(x) = 6
6
7:
7
6 7
6 7
6 7
4 @ 2 f (^
x) @ 2 f (^
x) 2
@ f (^ x) 5
@xn @x1 @xn @x2 @xn @xn

1.4. TRAVAUX DIRIGÉS 1
1.4 Travaux dirigés 1

Exercice 01
Montrer qu’une norme est convexe.
Exercice 02
Montrer
( que la fonction indicatrice d’un ensemble K dé…nie par
0 if x 2 K;
1K =
+1 sinon,
est convexe si et seulement si K est convexe.
Exercice 03
Soit U une partie convexe d’un espace vectoriel V . Montrer que f : U V ! R est
convexe si et seulement si l’ensemble suivant :
epi (f ) = f( ; ) 2 V R j 2 U; f ( )g
est une partie convexe de V R:

Exercice 04
Soit F une fonction de Rn dans R. Pour u et v …xés dans Rn on dé…nit la fonction de
R + vers R suivante :
F (u + v) F (u)
8 >0 ( )= :
Montrer que si F est convexe alors est croissante.

Exercice 05
Soit f une fonction de R dans R dérivable sur l’intervalle ]0; 1]: On suppose que f 0
n’est pas bornée sur ]0; 1]. Montrer que f n’est pas lipschitzienne sur [0; 1].
Exercice 06
Soit a une forme bilinéaire symétrique de Rn Rn dans R.
a) Montrer que l’on peut trouver une matrice symétrique A d’ordre n telle que :
8u; v 2 Rn a (u; v) = (Au; v) :
b) Calculer le gradient et la dérivée seconde (hessien) de la fonctionnelle J dé…nie sur

Rn par :
J(v) = 12 (Av; v) (b; v) ; où b 2 Rn est …xé.
(c) À quelle condition sur A, la fonction J est-elle convexe ? strictement convexe ?
Exercice 07
Soit f une fonction convexe de Rn dans R. Montrer que :

1.5. SUGGESTIONS ET CORRIGÉS
p P
p P
p P
p
8 ( i )1 i p 2 (R+ ) tq i = 1, 8 (xi )1 i p 2 (Rn )p , f i xi if (xi ) :
i=1 i=1 i=1
1.5 Suggestions et Corrigés

Exercice 01
Soit N une norme d’un espace vectoriel E. Soient x; y 2 E et t 2 [0; 1].
N (tx + (1 t)y) = N (tx) + N ((1 t)y) = tN (x) + (1 t)N (y):
N est donc convexe.

Exercice 02
a) Supposons K convexe et soient x; y 2 Rn et t 2 [0; 1]:
–Si x et y sont dans K alors tx + (1 t)y est dans K et
IK (tx + (1 t)y) = 0 = t IK (x) + (1 t) IK (y) :

| {z } | {z }
=0 car x2K =0 car y2K
–Si x (ou y) n’est pas dans K, alors IK (x) (ou IK (y)) = +8, et l’inegalité de convexité
est trivialement veri…ée.
(b) Reciproquement. Soient x; y 2 K et t 2 [0; 1] ; par convexite de IK
IK (tx + (1 t)y) 0 t IK (x) + (1 t)IK (y) = 0:

| {z } | {z }
=0 car x2K =0 car y2K
Comme IK ne prend que les valeurs 0 ou +8, IK (tx+(1 t)y) = 0 et tx+(1 t)y) 2 K.
Exercice 03
(a) Supposons f convexe ; soient (u; ) et (v; ) dans épi(f ) et t 2 [0; 1]. Comme U
est convexe, tu + (1 t)v 2 U et
f (tu + (1 t)v) = tf (u) + (1 t)f (v) = t + (1 t) ;
donc t(u; ) + (1 t)(v; ) 2épi(f ).
(b) Reciproquement. ´
Comme (u; f (u)) et (v; f (v)) sont dans épi(f ), t(u; f (u)) + (1 t)(v; f (v)) aussi.
La convexité de f en découle.
Exercice 04
Soient 1 2 > 0. Posons t = 1
2
2 ]0; 1] :
F (u + 2 v) = F (u + t 1 v) = F ((1 t)u + t(u + 1 v))
(1 t)F (u) + tF (u + 1 v):

Donc
1
F (u + 2 v) F (u) t(F (u + 1 v) F (u)) = (F (u + 1 v) F (u));
2
c’est-à-dire ( 1) ( 2) :
Exercice 05
On montre que si f est lipschitzienne sur [0; 1] et dérivable, alors f0 est bornée sur
]0; 1] :
Soit x 2 ]0; 1] et h assez petit pour que x h 2 [0; 1]. Comme f est lipschitzienne sur
]0; 1]
kf (x h) f (x)k k jhj ;
où k est indépendant de x. En divisant et avec h ! 0, on obtient que la dérivée à

gauche est bornée. On procède de même avec la dérivée à droite (sauf en 1).
Exercice 06
a) On applique le théorème de représentation de Riesz à l’application linéaire a(u; ) :
v 7 ! a(u; v), pour u …xé. On dé…nit ainsi une forme linéaire Au ; on voit facilement que
u 7 ! Au est linéaire : Au = Au.
b) rJ(v) = Av b et D2 J(v) = A.
Exercice 07
On raisonne par récurrence : c’est vrai pour p = 2. Supposons que c’est vrai pour p 1.
Pp
Soit ( i )1 i p 2 (R+ )p tel que i = 1. Il existe donc i0 tel que i0 6= 0. Posons
i=1
P
p
= i. Il est clair que i0 , 2 ]0; 1[ et i0 + = 1. Soit (xi )1 i p 2 Rp . On appelle
i=1; i6=i0
P
p
x le barycentre des points ( i ; xi ) i6=i0 de sorte que i xi = x La convexité de f
i=1; i6=i0
donne
P
p
f i xi =f( x+ i 0 xi 0 ) f (x) + i0 f (xi0 ) .
i=1
P
p
comme x = i
xi , on utilise l’hypothèse de récurrence pour conclure.
i=1; i6=i0

Chapitre 2
Minimisation sans contraintes
Soit f : Rn ! R . On appelle problème de minimisation sans contraintes le probléme

suivant
(P ) minn f (x) :
x2R
L’étude de ces problèmes est importante pour des raisons diverses. Beaucoup de problèmes
d’optimisation avec contraintes sont transformés en des suites de problèmes d’optimisation
sans contraintes (multiplicateur de Lagrange, méthodes des pénalités, . . .). Létude des
problèmes d’optimisation sans contraintes trouve aussi des applications dans la résolution
des systèmes non linéaires. Une grande classe d’algorithmes que nous allons considérer
pour le problème d’optimisation sans contraintes ont la forme générale suivante
x0 étant donnée, calculer xk+1 = xk + k dk ; (2.1)
le vecteur dk s’appelle la direction de descente, k le pas de la méthode à la k-iéme

itération. En pratique, on s’arrange presque toujours pour avoir l’inégalité suivante
f (xk+1 ) f (xk );
qui assure la décroissance su¢ sante de la fonction objectif f . De tels algorithmes sont
souvent appellés méthodes de descente. Essentiellement la di¤érence entre ces algorithmes
réside dans le choix de la direction de descente dk , cette direction étant choisie nous
sommes plus où moins ramenés à un problème unidimensionnel pour la détermination de
k : Pour s’approcher de la solution optimale du problème (P ) (dans le cas général, c’est
un point en lequel ont lieu peut être avec une certaine précision les conditions nécessaires
d’optimalité de f ), on se déplace naturellement à partir du point xk dans la direction de la
décroissance de la fonction f . L’optimisation sans contraintes a les propriétés suivantes :
19
2.1. RÉSULTATS D’EXISTENCE ET D’UNICITÉ
- toutes les méthodes nécessitent un point de départ x0 .

- les méthodes déterministes convergent vers le minimum local le plus proche.
- plus vous saurez sur la fonction (gradient, hessien) plus la minimisation sera e¢ cace.
Considérons le problème d’optimisation sans contraintes (P ).
Dé…nition 2.0.1 Soit f : Rn ! R; une fonction continûment di¤érentiable.

a) soit x^ 2 Rn : x^ est dite solution optimale globale de (P ) si et seulement si :
8x 2 Rn ; f (^
x) f (x):
b) soit x^ 2 Rn . x^ est dite solution optimale locale de (P ) si et seulement s’il existe un

voisinage V" (^x) de x^ tel que
f (^
x) f (x); 8x 2 V" (^
x):
c) soit x^ 2 Rn : x^ est dite solution optimale stricte de (P ) si et seulement s’il existe

un voisinage V" (^
x) de x^ tel que
f (^
x) < f (x); 8x 2 V" (^
x) et x 6= x^ :
2.1 Résultats d’existence et d’unicité

Avant d’étudier les propriétés de la solution (ou des solutions) de (P) il faut s’assurer
de leur existence. Nous donnerons ensuite des résultats d’unicité.
Dé…nition 2.1.1 On dit que f : Rn ! R est coercive si

lim f (x) = +1.
kxk!+1
Ici k k désigne une norme quelconque de Rn . On notera k kp (p 2 N) la norme lp de

Rn :
1
n
P
n
p
p
8x = (x1 ; :::; xn ) 2 R kxkp = jxi j .
i=1
La norme in…nie de Rn est
8x = (x1 ; :::; xn ) 2 Rn kxk1 = max jxi j.

1 i n
Théorème 2.1.1 (Existence) Soit f : Rn ! R [ f+1g propre, continue et coercive.

Alors (P) admet au moins une solution.

2.1. RÉSULTATS D’EXISTENCE ET D’UNICITÉ
Preuve. [09]
- Soit d = inf (P); d < +1 car f est propre. Soit (xp )p2N 2 Rn une suite minimisante,
c’est-à-dire telle que
lim f (xp ) = d:
p!+1
Montrons que (xp ) est bornée.
Si ce n’était pas le cas on pourrait extraire de cette suite une sous-suite (encore notée
(xp )) telle lim kxp k = +1 . Par coercivité de f on aurait lim f (xp ) = +1 ce qui
p!+1 p!+1
contredit le fait que lim f (xp ) = d < +1.
p!+1
Comme (xp ) est bornée, on peut alors en extraire une sous-suite (encore notée (xp ))
qui converge vers x 2 Rn Par continuité de f , on a alors
d = lim f (xp ) = f (x).
p!+1
En particulier d > 1 et x est une solution du problème (P).
Théorème 2.1.2 (Unicité) Soit f : Rn ! R [ f+1g strictement convexe. Alors le

problème (P) admet au plus une solution.
Preuve. [09]
- Supposons que f admette au moins un minimum m et soient x1 6= x2 (dans Rn )
réalisant ce minimum :f (x1 ) = f (x2 ) = m. Par stricte convexité de la fonction f on a
alors :
x1 + x2 1
f < (f (x1 ) + f (x2 )) = m ;
2 2
ceci contredit le fait que m est le minimum. Donc x1 = x2 .
Donnons pour terminer un critère pour qu’une fonction soit strictement convexe et
coercive :
Théorème 2.1.3 Soit J une fonction C 1 de Rn dans R. On suppose qu’il existe > 0
tel que
8(x; y) 2 Rn Rn (rf (x) rf (y) ; x y) kx yk2 (2.2)
Alors J est strictement convexe et coercive ; en particulier le problème (P) admet une
solution unique .
Preuve. [09]
- La condition (2.2) implique que rJ est monotone et que f est convexe. De plus on
a la stricte convexité de J. En…n J est coercive : en e¤et, appliquons la formule de Taylor
avec reste intégral
Z1 Z1
d
f (y) = f (x) + f (x + t(y x)) dt = f (x) + (rf (x + t(y x)) ; y x) dt.
dt
0 0

2.2. CONDITIONS D’OPTIMALITÉ
Donc
Z1
f (y) = f (x) + (rf (x); y x) + (rf (x + t(y x)) rf (x) ; y x) dt: (2.3)
0
D’après (2.2) on obtient

Z1
f (y) f (x) + (rf (x); y x) + t kx yk2 dt:
0
Finalement
f (y) f (x) krf (x)k ky kx yk2 :
xk +
2
Fixons x = 0 par exemple ; il est alors clair que f est coercive.
Par conséquent, f admet un minimum unique x sur Rn caractérisé par
rf (x ) = 0:
La condition (2.2) nous amène à la dé…nition suivante :
Dé…nition 2.1.2 (Fonction elliptique) On dit que f : Rn ! R est elliptique si la

condition (2.2) est véri…ée, c’est-à-dire
9 > 0 tel que 8(x; y) 2 Rn Rn (rf (x) rf (y) ; x y) kx yk2 .
est la constante d’ellipticité.
Proposition. 2.1.1 Une fonction f : Rn ! R deux fois di¤érentiable sur Rn est ellip-
tique si et seulement si
8(x; y) 2 Rn Rn D2 f (x) y; y kyk2 :
Preuve. [09]
- On utilise de nouveau la formule de Taylor appliquée à la fonction ' : t ! '(t) =
f (x + ty). La démonstration est laissée au lecteur.
Il faut maintenant donner des conditions pour pouvoir calculer la (ou les) solutions.
On va chercher à montrer que cette solution est solution de certaines équations, de sorte
qu’il sera plus facile de la calculer.
2.2 Conditions d’optimalité

Les conditions d’optimalité sont des équations, des inéquations ou des propriétés que
véri…ent les solutions de (P ) (conditions nécessaires ) ou qui assure à un point d’être
solution de (P ) (condition su¢ sante). Elles traduisent ainsi l’expression de l’optimalité
locale sous une forme analytique. Ces conditions sont utiles pour :

- véri…er l’optimalité éventuelle d’un point x 2 Rn , voir si c’est un minimum, un

maximum où un point stationnaire.
- calculer les solutions de (P ).
- mettre en œuvre des méthodes numériques permettant de résoudre (P ).
- dé…nir des tests d’arrêts des itérations dans les algorithmes de résolution de (P ).
On parlera de conditions du premier ordre lorsque celles-ci ne font intervenir que des
dérivées premières de f . Quant aux conditions du second ordre, elles font intervenir les
dérivées premières et secondes de f .
2.2.1 Conditions nécessaires d’optimalité

Etant donné un point x^, la propriété de di¤érentiabilité continue de la fonction f
fournit une première manière de caractériser une solution optimale.
- Conditions nécessaires d’optimalité du premier ordre
Théorème 2.2.1 Soit f : Rn ! R telle que f soit di¤érentiable au point x 2 Rn : Soit

d 2 Rn telle que rf (x)t d < 0: Alors il existe > 0 tel que f (x + d) < f (x) pour tout
2]0; [: La direction d s’appelle dans ce cas direction de descente.
Preuve. [09]Comme f est di¤érentiable en x alors
f (x + d) = f (x) + rf (x)t d + kdk (x; d);
où (x; d) ! 0 pour ! 0: Ceci implique :
f (x + d) f (x)
= rf (x)t d + kdk (x; d); 6= 0;
et comme rf (x)t d < 0 et (x; d) ! 0 pour ! 0; il existe > 0 tel que
rf (x)t d + kdk (x; d) < 0 pour tout 2]0; [;
et par conséquent on obtient :
f (x + d) < f (x) pour tout 2]0; [:
Théorème 2.2.2 Soit f : Rn ! R di¤érentiable au point x^ 2 Rn . Si x^ est un minimum

local de (P ) alors rf (^
x) = 0.

Preuve. [09]
On démontre par l’absurde, on suppose que rf (^
x) 6= 0.
Si on suppose d = rf (^x), on obtient :
x)t :d =
rf (^ x)k2 < 0;
krf (^
et par le théorème 2.2.1, il existe > 0 tel que
f (^
x + d) < f (^
x); 8 2 ]0; [ :
ce qui donne une contradiction avec le fait que x^ est un minimum local, d’où rf (^
x) = 0.
-Conditions nécessaires d’optimalité du second ordre
Dé…nition 2.2.1 a) Une matrice symétrique A est dite semi dé…nie positive si :
8d 2 Rn ; dt Ad 0:
b) Une matrice symétrique A est dite dé…nie positive si :
8d 2 Rn ; d 6= 0; dt Ad > 0:
Théorème 2.2.3 Soit f : Rn ! R deux fois di¤érentiable au point x^ 2 Rn . Si x^ est un

minimum local de (P ) alors rf (^ x) = 0 et la matrice hessienne de f au point x^, qu’on
note H (^
x), est semi dé…nie positive.
Preuve. [09]
Soit d 2 Rn quelconque, f étant deux fois di¤érentiable au point x^, on aura pour tout
6= 0
1 2 t
f (^
x + d) = f (^x) + d H(^x)d + 2 kdk2 (^ x; d);
2
avec x; d) ! 0, quand ! 0:
(^
Ceci implique
f (^
x + d) f (^
x) 1
2
= dt H (^
x) d + d 2 (^
x; d) ;
2
ainsi x^ est un optimum local, il existe alors > 0 tel que
f (^
x + d) f (^
x)
2
0; 8 2 ]0; [ :

Comme x est un minimum local alors f (x + d) f (x) pour su¢ samment petit, d’où
1 t
d H(x)d + kdk2 (x; d) 0 pour petit:
2
En passant à la limite qund ! 0; on obtient que dt H(x)d 0; d’où H(x) est semi
dé…nie positive.
2.2.2 Conditions su¢ santes d’optimalité

Les conditions données précédemment sont nécessaires (si f n’est pas convexe), c’est-
à-dire qu’elle doivent être satisfaites pour tout minimum local, cependant, tout point
véri…ant ces conditions n’est pas nécessairement un minimum local. Le théorème 1.7 sui-
vant établit une condition su¢ sante pour qu’un point soit un minimum local, si f deux
fois di¤érentiable.
Théorème 2.2.4 Soit f : Rn ! R deux fois di¤érentiable au point x^ 2 Rn . Si rf (^

x) = 0
et H (^
x) est dé…nie positive alors x^ est un minimum local strict de (P ) :
Preuve. [09]
f étant deux fois di¤érentiable au point x^, on aura pour tout x 2 Rn
1
x) + (x
f (x) = f (^ x^)t H (^
x) (x x^) + k(x x^)k2 (^
x; (x x^)) ;
2
avec
(^
x; (x x^)) ! 0 (rf (^
x) = 0) :
x!^
x
Supposons que x^ n’est pas un optimum local strict. Alors il existe une suite fxk gk2N telle
que xk 6= x^ : 8k, et
xk 6= x^ : 8k; xk ! x^ et f (xk ) f (^x) :
k!1
Prenons x = xk , divisons le tout par k(x x^)k2

(x x^)
et notons dk = , kdk k = 1, on obtient
k(x x^)k
f (xk ) f (^
x) 1 t
2 = dk H (^
x) dk + (^
x; (xk x^)) , (^
x; (xk x^)) ! 0
k(xk x^)k 2 k!1
Alors
1 t
d H (^
x) dk + (^
x; (xk x^)) 0; 8k:
2 k

D’autre part la suite fdk gk2N est bornée (kdk k = 1; 8n). Donc il existe une sous suite
fdk gk2N1 N telle que
dk ! ~
d:
k!1;k2N1
Finalement lorsque k ! 1; k 2 N1 , on obtient
1~
x) d~
dH (~ 0:
2
La dernière relation et le fait que d~ 6= 0 d~ = 1 impliquent que la matrice hessienne

x) n’est pas dé…nie positive. Ceci est en contradiction avec l’hypothèse.
H (~
cas convexe
Théorème 2.2.5 Soit f : Rn ! R telle que f est convexe et di¤érentiable. Alors x^ est
un minimum globale de f si et seulement si
rf (^
x) = 0:
Remarque 2.2.1 Dans le cas ou f est convexe, alors tout minimum local est aussi glo-
bale. De plus si f est strictement covexe, alors tout minimum local devient non seulement
global mais aussi unique.


Exercice 01
Les fonctions f suivantes sont-elles coercives ?
a) f : R ! R dé…nie par f (x) = x3 + x2 + 1:
b) f : Rn ! R dé…nie par f (x) = (a; x) + b avec a 2 Rn et b 2 R:
c) f : R2 ! R dé…nie par f (x) = 2x21 + x2 1:
2
d) f : R ! R dé…nie par f (x) = 2x21 + x32 + 2x22 :
e) f : R2 ! R dé…nie par f (x) = x21 + x22 1000x1 5000:
Exercice 02
Soit A une matrice symétrique dé…nie positive à coe¢ cients réels. Montrer qu’il existe
une constante > 0 telle que
8v 2 Rn (Av; v) kvk2 ;
où (:; :) est le produit scalaire de Rn et k:k la norme euclidienne associée.

Exercice 03
Montrer par un exemple que la condition rf = 0 est une condition nécessaire d’op-
timalité et pas su¢ sante.
Exercice 04
Trouver les minima et les maxima sur R2 de la fonction f dé…nie sur R2 par :
a) f (x1 ; x2 ) = x21 x1 x2 + 16 x32 ;
b) f (x1 ; x2 ) = x21 2x1 x2 + 1;
c) f (x1 ; x2 ) = x31 + x32 9x1 x2 + 27:
Exercice 05
Soit J (v) = 12 (Av; v) (b; v)où A est une matrice symétrique de Rn dans Rn et v
2 Rn , une fonctionnelle quadratique de Rn dans R. Démontrer les propositions suivantes :
a) J est convexe si et seulement si A est semi-dé…nie positive.
b) J est strictement convexe si et seulement si A est dé…nie positive.
c) 9u 2 Rn tel que : 8 v 2 Rn fug J (u) < J (v) si et seulement si A est dé…nie
positive.
d) 9u 2 Rn tel que : 8 v 2 Rn J (u) J (v) si et seulement si A est semi-dé…nie
n
positive et l’ensemble fw 2 R j Aw = bg n’est pas vide.
(e) Si la matrice A est semi-d´e…nie positive et si l’ensemble fw 2 Rn j Aw = bg est
vide, alors inf v2Rn J (v) = 1:
Exercice 06
Chercher les dimensions d’un wagon rectangulaire non couvert (ou d’une caisse sans

couvercle) telles que pour un volume donné V , la somme des aires des côtés et du plancher
soit minimale.
Exercice 07
On se propose d’approcher un nuage de points donnés par les couples de réels (ti ; xi ),
i 2 f1; :::; N g par une parabole d’équation x(t) = at2 + bt + c où a; b et c sont trois réels
à déterminer. Autrement dit, on fait une régression “parabolique”.
(a) Exprimer le problème ci-dessus sous forme de problème de minimisation au sens des
moindres carrés. On précisera en particulier la fonction coût, les inconnues et l’ensemble
des contraintes.
(b) Ce problème de minimisation a-t’il une solution ? Pourquoi ? Est-elle unique ?
(c) Ecrire le système d’optimalité permettant de trouver le minimum.
P
N
On notera Sk la quantité Sk = tki :
i=1

Exercice 01
a) Non car lim J(x) = 1.
x! 1
b) Si a = 0 alors J est constante et ne peut pas etre coercive. Si a 6= 0, il existe
i0 ; 1 i0 n tel que ai0 = 0. On prend la suite xk = kai0 ei0 (Où ei est le i eme vecteur
de base). Lorsque k ! +1, on a kxk k ! +1 et J(xk ) ! 1. J n’est donc jamais
coercive.
3. Non : prendre la suite xn = (0; n).
4. Non : prendre la suite xn = (0; n).
5. Oui car J(x1 ; x2 ) = (x1 500) + x2 255000.
Exercice 02
A est symétrique, donc il existe une base de vecteurs propres orthonormés (ui )i=1;:::;n .
les valeurs propres associées ( i )i=1;:::;n sont strictement positives puisque A est dé…nie
P
n
positive. Soit x = xi ui dans Rn : Nous avons
i=1
P
n P
n
(Ax; x) = i xi xj (ui ; uj ) =
2
i xi min kxk2 .
i=1 i=1
La constante peut être prise égale à la plus petite valeur propre min > 0.
Exercice 03
Il su¢ t de consid´erer la fonction de R vers R dé…nie par f (x) = x3 .
Exercice 04 " #
2 1
a) Il y a deux points critiques : (0; 0) et ( 12 ; 1). La matrice hessienne vaut .
1 x2

Pour x2 = 0, la matrice a deux valeurs propres de signes di¤érents. Le point (0; 0) n’est
ni un minimum, ni un maximum. Pour x2 = 1, la matrice est d2…nie positive. Le point
( 21 ; 1) est un minimum strict.
b) Le point (0; 0) est un point critique mais ce n’est ni un minimum, ni un maximum.
c) Les deux points critiques sont (0; 0) et (3; 3). Le point (0; 0) n’est ni un maximum
ni un minimum car la matrice hessienne n’est ni semi-positive ni semi-négative. (3; 3) est
un minimum strict.
Exercice 05
Un rapide calcul donne pour tous u; v 2 Rn et t 2 [0; 1] :
t(t 1)
J(tu + (1 t)v) tJ(u) (1 t)J(v) = (A(u v); u v).
2
D’où a) et b).
La question c) est une application directe du cours.
d) Soient u; v 2 Rn et t > 0 :
t2
J(u + tv) J(u) = t(Au b; v) + (Au; u). (B.1)
2
S’il existe u 2 Rn tel que : 8v 2 Rn ; J(u) J(v), ( B.1) donne après division par t
t
8v 2 Rn (Au b; v) + (Au; u) 0.
2
En faisant tendre t vers 0 on voit que (Au b; v) 0 pour tout v et donc Au b=0
(l’ensemble fw 2 Rn j Aw = bg n’est donc pas vide) ; par conséquent
t
8v 2 Rn ; 8t > 0 (Au; u) 0,
2
ce qui signi…e que A est semi-dé…nie positive.

Réciproquement, on choisit u dans l’ensemble fw 2 Rn j Aw = bg qui n’est pas vide.
Si de plus A est semi-dé…nie positive, la relation ( B.1) montre que J(u) J(u + tv)
pour tout v 2 Rn .
e) C’est en partie la contraposée de d). Elle s’en déduit immédiatement en supposant
par exemple que inf J(v) > 1.
Exercice 06
Soient x la largeur, y la longueur et z la hauteur du wagon. V = xyz et la somme des
aires et du plancher vaut A = xy + 2yz + 2xz. Les côtes sont de longueur non nulle donc

V
xy > 0 (par exemple) et z = xy
. On doit donc minimiser la fonction
(x + y) 2V 2V
A(x; y) = xy + 2V = xy + + .
xy y x
(
y 3 = 2V; p
3
Le système d’optimalité est : et on obtient x = y = 2V .
x3 = 2V;
Exercice 07
a) Le problème s’écrit
min J(a; b); (a; b; c) 2 R3 ,
P
n
2
où J(a; b; c) = (xi at2i bti c) . Les inconnues sont (a; b; c) et il n’y a pas de
i=1
contraintes. 23
S4 S3 S2
6 7
b) Il y a solution unique si la matrice A = 4 S3 S2 S1 5 associée à la forme
S2 S1 N
P k
n
quadratique est dé…nie positive (Sk = ti ).
i=1 2 N 3
P 2
2 3 6 xi ti 7
a 6 i=1 7
6 7 6 PN 7
c) Le système d’optimalité s’écrit : A4 b 5 = 6
6 x i ti
7:
7
6 i=1 7
c 4 P N 5
xi
i=1

Chapitre 3
Algorithmes
Dans ce chapitere, nous allons présenter quelques algorithmes permettant de calculer

(de manière approchée) la ou les solutions du problème (P) de départ. Bien entendu,
nous ne pouvons pas être exhaustifs ; nous présentons les méthodes “de base” les plus
classiques. Toutefois, la plupart de ces algorithmes exploitent les conditions d’optimalité
dont on a vu qu’elles permettaient (au mieux) de déterminer des minima locaux. La
question de la détermination de minima globaux est di¢ cile et dépasse le cadre que nous
nous sommes …xés. Néanmoins, nous décrirons dans la section suivante, un algorithme
probabiliste permettant de “déterminer”un minimum global.
Remarquons aussi que nous avons fait l’hypothèse de di¤érentiabilité de la fonction J.
Il existe des méthodes permettant de traiter le cas non di¤érentiable (ou non régulier).
Nous n’en parlerons pas ici.Nous commencerons par quelques dé…nitions :
Dé…nition 3.0.1 (Algorithmes) Un algorithme est dé…ni par une application A de Rn

dans Rn permettant la génération d’une suite d’éléments de Rn par la formule :
(
x0 2 Rn donné, k = 0 étape d’initialisation,
xk+1 = A(xk ); k = k + 1 itération k:
Ecrire un algorithme n’est ni plus ni moins que se donner une suite (xk )k2N de Rn ; étudier
la convergence de l’algorithme, c’est étudier la convergence de la suite (xk )k2N .
3.0.1 Convergence globale

Dé…nition 3.0.2 On dit qu’un algorithme est globalement convergent (où encore, possède
la propriété de la convergence globale) si, quelque soit le point de départ x0 choisi, la suite
fxk gk générée par cet algorithme (où une sous suite) converge vers un point satisfant une
condition nécessaire d’optimalité.
31
La notion de convergence globale concerne le fait qu’on aura limite même si l’itéré ini-
tial est très éloigné de la limite x^: Au contraire , on aura seulement une convergence locale
si une suite fxk gk converge vers x^. Il est trés important de souligner qu’elle n’implique
pas (contrairement à ce que pourrait suggérer le terme) la convergence vers un optimum
global pour tout point de départ x0 . Il s’agirait là, du reste, d’une condition beaucoup très
sévère, qui ne serait remplir pratiquement par aucun des algorithmes cunnus. Néanmoins,
on peut noter que dés qu’un algorithme possède la propriété de convergence global, il su¢ t
d’imposer une condition de convexité pour obtenir précisément la convergence de l’algo-
rithme vers un optimum global du problème (P ), quelque soit le point de départ choisi. Il
est bien entendu que c’est très impotant d’assurer la convergence d’un algorithme, mais
la vitesse de la convergence est un facteur à prendre en compte lors de l’utilisation (où
la génération) d’un algorithme, on a en e¤et "intérêt" à ce que la méthode soit la plus
rapide possible tout en restant précise et stable.
3.0.2 Vitesse de convergence

La convergence globale d’un algorithme ayant été établie, nous nous intéressons main-
tenant à l’évaluation de son e¢ cacité d’un point de vue pratique, l’e¢ cacité d’un algo-
rithme dépend du nombre d’itérations nécessaires pour obtenir une approximation à "
près (" …xé à l’avance) de l’optimum x^: Si l’on compare entre eux plusieurs algorithmes,
et si l’on admet que le temps de calcul par itération est sensiblement le même pour tous,
le meilleur est celui qui nécessitera le plus petit nombre d’itérations. Malheureusement,
il se révèle impossible de dégager des conclusions générales de ce genre de comparaison.
Suivant le point de départ choisi, la nature de la fonction à optimiser, la valeur de la
tolérance choisie, la hiérarchie des algorithmes peut varier considérablement. Si l’on veut
dégager un critère ayant une certaine valeur d’absolu, il faut par conséquent recourir à un
autre type d’analyse, c’est l’objet de l’étude de la convergence asymptotique c’est-à-dire
du comportement de la suite fxk g au voisinage du point limite x^. Ceci conduit à attribuer
à chaque algorithme un indice d’e¢ cacité appelé sa vitesse de convergence. Nous intro-
duisons maintenant les di¤érents types de convergence. Plaçons nous dans Rn , où k . k
désigne la norme euclidienne et considérons une suite fxk g convergeant vers x^:
kxk+1 x k
– Si lim sup = < 1:
kxk x k
On dit que la convergence est linéaire et est le taux de convergence associé.
kxk+1 x k
– Si ! 0 quand k ! 1;
kxk x k
on dit que la convergence est superlinéaire.
kxk+1 x k
Plus précisément si 9p > 1 tel que lim sup < +1;
k !1 kxk x kp

3.1. MÉTHODE DU GRADIENT
on dit que la convergence est superlinéaire d’ordre p.

xk+1 x
En particulier si lim sup < +1;
k !1 kxk x k2
on dit que la convergence est quadratique (superlinéaire d’ordre 2).
3.1 Méthode du gradient

La méthode (ou algorithme) du Gradient fait partie d’une classe plus grande de
méthodes numéri- ques appelées méthodes de descente. Expliquons rapidement l’idée
directrice de ces méthodes.
On veut minimiser une fonction J. Pour cela on se donne un point de départ arbitraire
xo . Pour construire l’itéré suivant x1 il faut penser qu’on veut se rapprocher du minimum
de J ; on veut donc que J(x1 ) < J(xo ). On cherche alors x1 sous la forme x1 = xo + 1 d1
où d1 est un vecteur non nul de Rn et 1 un réel strictement positif. En pratique donc, on
cherche d1 et 1 pour que J(xo + 1 d1 ) < J(xo ). On ne peut pas toujours trouver d1 . Quand
d1 existe on dit que c’est une direction de descente et 1 est le pas de descente. La
direction et le pas de descente peuvent être …xes ou changer à chaque itération. Le schéma
général d’une méthode de descente est le suivant :
(
x0 2 Rn donné
xk+1 = xk + k dk ; dk 2 Rn f0g; k 2 R+ ;
où k et dk sont choisis de telle sorte que J(xk + k dk ) J(xk ):

Une idée naturelle pour trouver une direction de descente est de faire un développement
de Taylor (formel) à l’ordre 2 de la fonction J entre deux itérés xk et xk+1 = xk + k dk :
J(xk + k dk ) = J(xk ) + k (rJ(xk ); dk ) + o( k dk ):
Comme on veut J(xk + k dk ) < J(xk ), on peut choisir en première approximation

dk = rJ(xk ). La méthode ainsi obtenue s’appelle l’algorithme du Gradient. Le pas k
est choisi constant ou variable.
3.1.1 Algorithme du Gradient

1. Initialisation
k = 0 : choix de x0 et de 0 > 0:
2. Itération k
xk+1 = xk k rJ(xk ).

3. Critère d’arrêt
Si kxk+1 xk k < " , STOP.
Sinon, on pose k = k + 1 et on retourne à 2.
Dans tout ce qui suit, " est un réel positif (petit) donné qui représente la
précision désirée.
Cette méthode a pour avantage d’être très facile à mettre en oeuvre. Malheureuse-
ment, les conditions de convergence sont assez lourdes (c’est essentiellement de la stricte
convexité) et la méthode est en général assez lente. Nous donnons ci-dessous un critère
de convergence :
Théorème 3.1.1 Soit J une fonction C 1 de Rn dans R, coercive et strictement convexe.

On suppose qu’il existe une constante M strictement positive telle que
8(x; y) 2 Rn Rn krJ(x) rJ(y)k M kx yk : (3.1)
2
Alors, si on choisit le pas k dans un intervalle [ 1 ; 2] tel que 0 < 1 < 2 < , la
M
méthode du gradient converge vers le minimum de J.
Preuve. J admet un minimum unique sur Rn et ce minimum x est caractérisé par

rJ(x ) = 0 , puisque J est strictement convexe. Montrons que la suite xk engendrée par
l’algorithme converge vers x . Appliquons la relation (2:3) à y = xk+1 et x = xk :
R1
J(xk+1 ) = J(xk ) + (rJ(xk ); xk+1 xk ) + (rJ(xk + t(xk+1 xk )) rJ(xk ); xk+1 xk )dt:
0
Comme xk+1 = xk k rJ(xk ) on obtient (avec (3:1) )
1 R1
J(xk+1 ) J(xk ) kxk+1 xk k2 + krJ(xk + t(xk+1 xk )) rJ(xk )k kxk+1 xk k dt;
k 0
1 M M 1
J(xk+1 ) J(xk ) kxk+1 xk k2 + kxk+1 x k k2 = kxk+1 xk k 2 :
k 2 2 k
2
Si on choisit k dans un intervalle [ 1; 2] tel que 0 < 1 < 2 < , nous obtenons
M
alors
M 1
J(xk+1 ) J(xk ) kxk+1 xk k 2 :
2 2
La suite J(xk ) est alors strictement décroissante ; comme elle est minorée elle converge.
Cela entraîne d’une part que J(xk+1 ) J(xk ) tend vers 0 et d’autre part que la suite (xk )
est bornée (par coercivité). On peut donc extraire de (xk ) une sous-suite convergente vers

x. De plus comme
1
2 1 M
kxk+1 xk k [J(xk+1 ) J(xk )] ;
2 2
xk+1 xk
la suite (xk+1 xk ) tend également vers 0. Par conséquent rJ(xk ) = tend
k
vers 0.
Par continuité de rJ, on obtient rJ(x) = 0. Donc x est l’unique minimum x de J.
Ceci étant vrai pour toute valeur d’adhérence de la suite (xk ) cela prouve que toute la
suite (xk ) converge vers x .
Dé…nition 3.1.1 On dit qu’une fonction F de Rn dans Rn est Lipschitzienne de rap-

port M > 0 si
8(x; y) 2 Rn Rn kF (x) F (y) k M kx yk :
La condition (3:1) du théorème précédent signi…e donc que rJ est lipschitzienne.
Corollaire 3.1.1 Soit J, une fonction C 1 de Rn dans R, elliptique et de dérivée lipschit-

zienne (c’est-à-dire véri…ant (2:2) et (3:1)). Alors, si on choisit le pas k dans un intervalle
2
[ 1 ; 2 ] tel que 0 < 1 < 2 < , la méthode du gradient converge vers le minimum de
M
J.
Preuve. Il su¢ t de coupler les résultats des théorèmes 2:1:3 et 3:1:1.
Remarque 3.1.1 Lorsque J véri…e (2:2) et (3:1), on peut aussi interpréter l’algorithme
du gradient à pas constant comme la méthode des approximations successives appliquée à
la recherche du point …xe de la fonction
S (x) = x rJ(x);
où 6= 0. On peut en e¤et montrer que S est lipschitzienne de rapport (1 2 +

2
M 2 ). C’est
donc une contraction stricte si 2]0; 2 =M 2 [ ; elle possède alors un unique point …xe.
Pour = =M 2 , le taux de contraction est (1 =M 2 ) : c’est le meilleur possible. La
convergence est alors celle d’une série géométrique de raison (1 =M 2 ).
3.1.2 Méthode du gradient à pas constant

On utilise le plus souvent la méthode du gradient à pas constant ( k constant).
Toutefois, on peut faire varier le pas à chaque itération : on obtient alors la méthode du
gradient à pas variable.

3.1.3 Méthode du gradient à pas optimal

La méthode du gradient à pas optimal propose un choix du pas qui rend la fonction
coût minimale le long de la direction de descente choisie. Plus précisément, l’étape 2.
devient
2’.- Itération k
xk+1 = xk k rJ(xk );
où k réalise le minimum sur R+ de la fonction k dé…nie par
k( ) = J(xk rJ(xk )):
En pratique, on ne cherche pas le minimum de k et on détermine k en e¤ectuant une

recherche linéaire de pas optimal suivant une règle de la forme suivante par exemple :
Règle de recherche linéaire de Wolfe
1. Initialisation = 1 (par exemple), = + = 0. On se donne 0 < 1 < 2 < 1.

0 0
2. Si k( ) k (0) + 1 k (0) et k( ) 2 k (0) , STOP : k = .
3. Sinon
0
–Si k( )> k (0) + 1 k (0), on pose + =
0 0
–Si k( ) k (0) + 1 k (0) et k( ) < 2 k (0), on pose = et on va à 4.
4. Choix d’un nouveau :
–Si + = 0, on cherche > (par exemple =2 ).
+ +
–Si + > 0, on cherche 2] ; +[ (par exemple = ).
2
Retour à 2.
La règle apparaissant à l’étape 2. est connue sous le nom générique de règle d’Armijo.
Il existe beaucoup d’autres règles de recherche linéaire.
Exemple 3.1.1 Les conditions du théorème peuvent paraître compliquées, aussi nous don-
nons un exemple. Soit J la fonction de Rn vers R déjà évoquée plusieurs fois (car elle
joue un rôle important) dé…nie par
1
J(x) = (Ax; x) (b; x);
2
où A est une matrice carrée, symétrique et dé…nie positive et b 2 Rn .

Cette fonction J véri…e les hypothèses du théorème ci-dessus avec pour constantes
et M la plus petite et la plus grande valeur propre de A (respectivement).

3.2. MÉTHODE DU GRADIENT CONJUGUÉ
Remarque 3.1.2 La notion d’ellipticité est très importante, car elle conditionne la conver-
gence de la plupart des algorithmes qui vont être décrits par la suite. Toutefois, les condi-
tions de convergence que nous donnons sont toujours des conditions su¢ santes. L’algo-
rithme converge si elles sont véri…ées mais il peut éventuellement converger, même
si elles ne le sont pas ....
En pratique, on ne calcule pas et M . Pour trouver l’intervalle de convergence de ,
on fait plusieurs tests pour di¤érentes valeurs. La non convergence se traduit en général,
soit par une explosion de la solution ( elle va clairement vers +1) soit par des oscillations
(périodiques ou non) qui empêchent la suite des itérés de converger vers une valeur.
3.2 Méthode du gradient conjugué

Les méthodes du gradient conjugué sont utilisées pour résoudre les problèmes d’opti-
misation non linéaires sans contraintes spécialement les problèmes de grandes tailles. On
l’utilise aussi pour résoudre les grands systèmes linéaires.
Elles reposent sur le concept des directions conjuguées parce que les gradients successifs
sont orthogonaux entre eux et aux directions précédentes.
L’idée initiale était de trouver une suite de directions de descente permettant de ré-
soudre le problème
min ff (x) : x 2 Rn g : (P)
Où f est régulière (continûment di¤érentiable)

Dans ce chapitre on va décrire toutes ces méthodes, mais avant d’accéder à ces der-
nières, on va d’abord donner le principe général d’une méthode à directions conjuguées
3.2.1 Le principe général d’une méthode à directions conjuguées

Donnons la dé…nition de "conjugaison" :
Dé…nition 3.2.1 Soit A une matrice symétrique n n, dé…nie positive. On dit que deux
vecteurs x et y de Rn sont A conjugués (ou conjugués par rapport à A) s’ils véri…ent
xT Ay = 0:
Description de la méthode
Soit fd0 ; d1 ; :::; dn g une famille de vecteurs A-conjugués. On appelle alors méthode de
directions conjuguées toute méthode itérative appliquée à une fonction quadratique stric-
tement convexe de n variables : q(x) = 21 xT Ax + bT x + c; avec x 2 Rn et A 2 Mn n est

symétrique et dé…nie positive, b 2 Rn et c 2 R , conduisant à l’optimum en n étapes au

plus. Cette méthode est de la forme suivante :
x0 donné,
xk+1 = xk + k dk ;
où k est optimal et d1 ; d2 ; ::; dn possédant la propriété d’être mutuellement conjuguées

par rapport à la fonction quadratique
Si l’on note gk = rq (xk ), la méthode se construit comme suit :
Calcul de k
Comme k minimise q dans la direction dk ; on a, 8k :
q0 ( k) = dTk rq(xk+1 ) = 0;
dTk rq(xk+1 ) = dTk (Axk+1 + b) = 0:
Soit :
dTk A(xk + k dk ) + dTk b = 0;
d’où l’on tire :

dTk (Axk + b)
k = :
dTk Adk
Comment construire les directions A-conjuguées ?

Des directions A-conjuguées d0 ; :::; dk peuvent être générées à partir d’un ensemble
de vecteurs linéairement indépendants 0 ; ::::; k en utilisant la procédure dite de Gram-
Schmidt, de telle sorte que pour tout i entre 0 et k, le sous-espace généré par d0 ; :::; di soit
égale au sous-espace généré par 0 ; ::::; i .
Alors di+1 est construite comme suit :
X
i
di+1 = i+1 + '(i+1)m dm :
m=0
Nous pouvons noter que si di+1 est construite d’une telle manière, elle est e¤ectivement
linéairement indépendante avec d0 ; :::; di .
En e¤et, le sous-espace généré par les directions d0 ; :::; di est le même que le sous-espace
généré par les directions 0 ; ::::; i , et i+1 est linéairement indépendant de 0 ; ::::; i :
i+1 ne fait donc pas partie du sous-espace généré par les combinaisons linéaires de la

X
i
forme '(i+1)m dm , de sorte que di+1 n’en fait
m=0
pas partie non plus et est donc linéairement indépendante des d0 ; :::; di .
Les coe¢ cients '(i+1)m , eux sont choisis de manière à assurer la A-conjugaison des
d0 ; :::; di+1 .
3.2.2 Méthode de gradient conjugué dans le cas quadratique

La méthode du gradient conjugué quadratique est obtenue en appliquant la procé-
dure de Gram-Schmidt aux gradients rq(x0 ); :::; rq(xn 1 ), c’est-à-dire en posant 0 =
rq(x0 ); :::; n 1 = rq(xn 1 ):
En outre, nous avons :
rq(x) = Ax + b;
et r2 q(x) = A:
Notons que la méthode se termine si rq(xk ) = 0.

La particularité intéressante de la méthode du gradient conjugué est que le membre de
droite de l’équation donnant la valeur de dk+1 dans la procédure de Gram-Schmidt peut
être grandement simpli…é.
Notons que la méthode du gradient conjugué est inspirée de celle du gradient (plus
profonde pente).
Algorithme de La méthode du gradient conjugué pour les fonctions quadra-

tiques
On suppose ici que la fonction à minimiser est quadratique sous la forme : q(x) =
1 T
2
x Ax + bT x + c:
Si l’on note gk = rf (xk ), l’algorithme prend la forme suivante.
Cet algorithme consiste à générer une suite d’itérés fxk g sous la forme :
xk+1 = xk + k dk :
L’idée de la méthode est :

1- construire itérativement des directions d0; :::; dk mutuellement
conjuguées :
A chaque étape k la direction dk est obtenue comme combinaison linéaire du gradient

en xk et de la direction précédente dk 1 c’est-à-dire
dk+1 = rq(xk+1 ) + k+1 dk ;
les coe¢ cients k+1 étant choisis de telle manière que dk soit conjuguée avec toutes les
directions précédentes. autrement dit :
dTk+1 Adk = 0;
on en déduit :
T
dTk+1 Adk = 0) rq(xk+1 ) + k+1 dk Adk = 0
) rT q(xk+1 )Adk + T
k+1 dk Adk =0
rT q(xk+1 )Adk T
gk+1 Adk
) k+1 = T
= T
:
dk Adk dk Adk
2-déterminer le pas k :
En particulier, une façon de choisir k consiste à résoudre le problème d’optimisation
unidimensionnelle suivant :
k = min f (xk + dk ) ; > 0;
on en déduit :
dTk gk 1 dT dT gk
k = = gk kT = T k :
dTk Adk Adk dk dk Adk
Le pas k obtenu ainsi s’appelle le pas optimal.
Algorithme 3.1 (Algorithme du gradient conjugué "quadratique"
Etape 0 : (initialisation)
Soit x0 le point de départ, g0 = rq(x0 ) = Ax0 + b, poser d0 = g0 ;
poser k = 0 et aller à l’étape 1:
Etape 1 :
si gk = 0 : STOP ( x = xk )."Test d’arrêt"
si non aller à l’étape 2.
Etape 2 :

Prendre xk+1 = xk + k dk avec :
dTk gk
k = T ;
dk Adk
dk+1 = gk+1 + k+1 dk ;

T
gk+1 Adk
k+1 = T
:
dk Adk
Poser k = k + 1 et aller à l’étape 1.
La validité de l’algorithme du gradient conjugué linéaire
On va maintenant montrer que l’algorithme ci-dessus dé…nit bien une méthode de

directions conjuguées.
Théorème 3.2.1 A une itération k quelconque de l’algorithme où l’optimum de q(x) n’est

pas encore atteint (c’est-à-dire gi 6= 0; i = 0; 1; :::; k ) on a :
a)
gkT gk
k = T 6= 0; (3.2)
dk Adk
b)
T
gk+1 [gk+1 gk ]
k+1 = ; (3.3)
gkT gk
T
gk+1 gk+1
= T
: (3.4)
gk gk
c) Les directions d0 ; d1 ; :::; dk+1 engendrées par l’algorithme sont mutuellement conju-
guées.
Preuve. On raisonne par récurrence sur k en supposant que d0 ; d1 ; :::; dk sont mutuelle-
ment conjuguées.
a) Montrons d’abord l’équivalence de (3.2) et de (3.3).
On a : dk = gk + k dk 1 :
Donc (3.2) s’écrit :
dTk gk
k =
dTk Adk
[ gk + k dk 1 ]T gk
=
dTk Adk
gkT gk dTk 1 gk
= T k T
dk Adk dk Adk

Comme (d0 ; d1 ; :::; dk 1 ) sont mutuellement conjuguées, xk est l’optimum de q(x) sur la
variété k passant par x0 et engendrée par (d0 ; d1 ; :::; dk 1 ).
Donc dTk 1 gk = 0 d’où l’on déduit (3.3).
b) Pour démontrer (3.4) remarquons que :
gk+1 gk = A(xk+1 xk ) = k Adk

1
) Adk = [gk+1 gk ] :
k
On a alors :
T 1 T
gk+1 Adk = gk+1 [gk+1 gk ] ;
k
et en utilisant (3.3)
gkT gk
k = ;
dTk Adk
il vient
T dTk Adk T
gk+1 Adk = :g [gk+1 gk ]
gkT gk k+1
g T Adk T
gk+1 [gk+1 gk ]
) k+1T
= :
dk Adk gkT gk
Or
T T
gk+1 Adk gk+1 [gk+1 gk ]
k+1 = T = ;
dk Adk gkT gk
ce qui démontre (3.4).
Alors du fait que :

T
gk+1 gk = 0;
car
gk = dk k dk 1 :
Appartient au sous-espace engendré par (d0 ; d1 ; :::; dk ) et que gk+1 est orthogonal à ce
sous-espace .
c) Montrons en…n que dk+1 est conjuguée par rapport à (d0 ; d1 ; :::; dk ).

On a bien dTk+1 Adk car, en utilisant dk+1 = gk+1 + k dk on aura :
T
dTk+1 Adk = gk+1 + k+1 dk Adk
T T
= gk+1 Adk + k+1 dk Adk
T
T gk+1 Adk T
= gk+1 Adk + d Adk
dTk Adk k
= 0:
Véri…ons maintenant que :
dTk+1 Adi = 0 pour i = 0; 1; :::; k 1:
On a :
dTk+1 Adi = T
gk+1 Adi + T
k+1 dk Adi :
Le seconde terme est nul par l’hypothèse de récurrence ((d0 ; d1 ; :::; dk )sont mutuelle-
ment conjuguées).
Montrons qu’il en est de même du premier terme. Puisque xi+1 = xi + i di et que

i 6= 0 on a :
1
Adi = (Axi+1 Axi )
i
1
= (gi+1 gi ) :
i
En écrivant :
gi+1 = di+1 i di ;
gi = di i 1 di 1 ;
on voit que Adi est combinaison linéaire de di+1 ; di et de di 1 seulement).
Mais puisque (d0 ; d1 ; :::; dk ) sont mutuellement conjuguées, on sait que le point xk+1
est l’optimum de q(x) sur la variété k+1 , engendrée par (d0 ; d1 ; :::; dk ) :
Donc gk+1 est orthogonal au sous-espace engendré par (d0 ; d1 ; :::; dk ) et comme Adi
T
appartient à ce sous-espace pour i = 0; 1; :::; k 1, on en déduit gk+1 Adi = 0 ce qui achève
la démonstration.

Remarque 3.2.1 dans ce cas dk est une direction de descente puisque
T
dTk rq(xk ) = rq(xk ) + k+1 dk 1 rq(xk )
= rq(xk )T rq(xk ) + T
k+1 dk 1 rq(xk )
= krq(xk )k2 (car dTk 1 rq(xk ) = 0 )
dTk rq(xk ) = krq(xk )k2 < 0:
Les avantages de la méthode du gradient conjugué quadratique
1- la consommation mémoire de l’algorithme est minime : on doit stocker les quatre

vecteurs xk ; gk ; dk ; Adk
( bien sur xk+1 prend la place de xk au niveau de son calcul avec des remarques
analogues pour gk+1 ; dk+1 ; Adk+1 ) et les scalaires k ; k+1 .
2- L’algorithme du gradient conjugué linéaire est surtout utile pour résoudre des
grands systèmes creux, en e¤et il su¢ t de savoir appliquer la matrice A à un vecteur.
3- La convergence peut être assez rapide : si A admet seulement r (r < n) valeurs
propres distincts la convergence a lieu en au plus r itération.
Di¤érentes formules de k+1 dans le cas quadratique
Les di¤érentes valeurs attribuées à k dé…nissent les di¤érentes formes du gradient

conjugué.
Si on note yk 1 = gk gk 1 ; sk = xk+1 xk on obtient les variantes suivantes :
1- Gradient conjugué variante Hestenes - Stiefel(HS)
T
HS gk+1 yk
k = T
:
dk yk
2- Gradient conjugué variante Fletcher Reeves(FR)
FR kgk k2
k = :
kgk 1 k2
3- Gradient conjugué variante Daniel (D)
D
T
gk+1 r2 f (xk ) dk
k = :
dTk r2 f (xk ) dk

4- Gradient conjugué variante Polak-Ribière-Polyak(PRP)
P RP gkT yk
k = :
kgk 1 k2
5- Gradient conjugué variante descente –Fletcher (CD)
CD kgk k2
k = :
dTk 1 gk 1
6- Gradient conjugué variante Liu - Storey(LS)
T
LS gk+1 yk
k = T
:
dk gk
7- Gradient conjugué variante de Dai-Yuan(DY)
DY kgk k2
k = T :
dk 1 y k 1
8- Gradient conjugué variante de Dai–Liao (DL)
T
DL gk+1 (yk tsk )
k = :
ykT sk
9- Gradient conjugué variante Hager-Zhang(HZ)

!T
HZ kyk k2 gk+1
k = yk 2dk T :
dk y k dTk yk
10- Gradient conjugué variante de Z. Wei [74]
kgk k
gkT gk g
kgk 1 k k 1
k = :
kgk 1 k2
11- Gradient conjugué variante de Hao Fan, Zhibin Zhu et Anwa Zhou
MN
kgk k2 kgk k T
g g
kgk 1 k k k 1
k = :
jgkT dk 1 j + kgk 1 k2
12- Gradient conjugué variante Rivaie-Mustafa-Ismail-Leong(RMIL)
RM IL gkT (gk gk 1 )
k = :
kdk 1 k2

13- Gradient conjugué variante Bellou…, Benzine(CGBB)
Remarque 3.2.2 Dans le cas quadratique on a vu que :
HS P RP FR CD DY
k+1 = k+1 = k+1 = k+1 = k+1 :
Dans le cas non quadratique, ces quantités ont en général des valeurs di¤érentes.
3.2.3 Méthode du gradient conjugué dans le cas non quadra-

tique
On s’intéresse dans cette section à la minimisation d’une fonction f : Rn ! R, non
nécessairement quadratique :
min f (x); x 2 Rn :
Les méthodes du gradient conjugué générent des suites fxk gk=0;1;2::: de la forme sui-
vante :
xk+1 = xk + k dk :
Le pas k 2 R étant déterminé par une recherche linéaire. la direction dk est dé…nie
par la formule de récurrence suivante( k 2 R)
(
si k = 1;
gk
dk =
gk + k dk 1 si k 2:
Ces méthodes sont des extensions de la méthode du gradient conjugué linéaire du cas
quadratique, si k prend l’une des valeurs
P RP gkT yk
k = ;
kgk 1 k2
FR kgk k2
k = ;
kgk 1 k2
CD kgk k2
k = ;
dTk 1 gk 1
où yk 1 = gk gk 1 :
Algorithme de La méthode du gradient conjugué pour les fonctions quel-

conques
Etape0 : (initialisation)

Soit x0 le point de départ, g0 = rf (x0 ), poser d0 = g0

Poser k = 0 et aller à l’étape 1:
Etape 1 :
Si gk = 0 : STOP ( x = xk )."Test d’arrêt"
Si non aller à l’étape 2.
Etape 2 :
Dé…nir xk+1 = xk + k dk avec :
k : calculer par la recherche linéaire
dk+1 = gk+1 + k+1 dk ;
où
k+1 : dé…ni selon la méthode.
Poser k = k + 1 et aller à l’étape 1.
Remarque 3.2.3 Dans le cas quadratique avec recherche linéaire exacte, on a vu que
P RP
k = Fk R = CD
k = DY
k .
Exemple 3.2.1 Appliquons l’algorithme de gradient conjugué dans le cas quadratique au

problème quadratique dé…ni par :
min f (x) = 21 xT Qx + bT x
0 1 0 1
1 1 1 1 4
B C B C
B 1 2 2 2 C B 7 C
où Q = B B 1 2 3 3 C,
C b=B
B
C.
C
@ A @ 9 A
1 2 3 4 10
Les itérations sont détaillées dans le tableau suivant. L’algorithme converge après avoir
généré 4 directions. Il est aisé de véri…er que les directions générées par l’algorithme sont
bien conjuguées et que les gradients sont orthogonaux entre eux.
Itérations de la méthode des gradients conjuguées pour l’exemple

3.3. MÉTHODE DE NEWTON
k xk rf (xk ) dk k k
+5.00000e+00 +1.60000e+01 -1.60000e+01
+5.00000e+00 +2.80000e+01 -2.80000e+01
1 +1.20766e-01
+5.00000e+00 +3.60000e+01 -3.60000e+01
+5.00000e+00 +4.00000e+01 -4.00000e+01
+3.06775e+00 +1.50810e+00 -1.52579e+00
+1.61856e+00 +9.48454e-01 -9.79407e-01
2 +1.02953e+00 +1.10547e-03
+6.52430e-01 -2.29750e-01 +1.89953e-01
+1.69367e-01 -1.06038e+00 +1.01616e+00
+1.49690e+00 +1.70656e-01 -1.97676e-01
+6.10224e-01 -1.55585e-01 +1.38241e-01
3 +2.37172e+00 +1.77089e-02
+8.47993e-01 -9.20500e-02 +9.54138e-02
+1.21554e+00 +1.23492e-01 -1.05497e-01
+1.02806e+00 +5.77796e-03 -8.27569e-03
+9.38093e-01 -1.65085e-02 +1.82552e-02
4 +3.39118e+00 +1.26355e-02
+1.07429e+00 +2.31118e-02 -2.19062e-02
+9.65332e-01 -1.15559e-02 +1.02229e-02
+1.00000e+00 -1.66356e-12
+1.00000e+00 -3.12639e-12
5
+1.00000e+00 -4.21174e-12
+1.00000e+00 -4.78906e-12
3.3 Méthode de Newton

La méthode de Newton n’est pas une méthode d’optimisation à proprement parler.
C’est en réalité une méthode utilisée pour résoudre des équations non linéaires de la forme
F (x) = 0 où F est une fonction de Rn dans Rn . Nous allons d’abord la décrire puis montrer
comment on peut l’appliquer à la recherche de minimum.
3.3.1 Description de la méthode

Considérons le problème d’optimisation sans contraintes (P )
(P ) : M in
n
f (x) ;
x2R
où f : Rn ! R:
Le principe de la méthode de Newton consiste à minimiser successivement les approxima-

tions du second ordre de f , plus précisément si
f (x) = f (x) + rf (xk )t (x xk ) + (x xk )t H (xk ) (x xk ) + o kx xk k 2 ;
posons
q (x) = f (x) + rf (xk )t (x xk ) + (x xk )t H (xk ) (x xk ) :
Soit xk+1 l’optimum de q, alors il véri…e rq (xk+1 ) = 0; soit en remplaçant :
rf (xk ) + H (xk ) (xk+1 xk ) = 0;
ou encore
H (xk ) (xk+1 xk ) = rf (xk ) ;
donc
1
xk+1 = xk [H (xk )] rf (xk ) :
Algorithme 2.1
Etape initiale : Soit " > 0, critère d’arrêt. Choisir x1 point initial, poser k = 1 et aller
a l’étape principale.
Etape principale : Si krf (xk )k " stop, sinon poser
1
xk+1 = xk [H (xk )] rf (xk ) remplacer k par k + 1 est aller a l’étape principale.
3.3.2 Avantages et inconvénients

Avantages
Si le point x1 et assez proche de la solution optimale locale x telle que H (x ) soit dé…nie
positive, alors l’algorithme de Newton converge de façon quadratique vers la solution x .
c’est à dire que l’on a,
kxk+1 xk kxk x k2 0:
Inconvénients :
1-Cette méthode fonctionne très bien pour les problèmes de petite dimension (1 n 10),
lorsque on peut calculer facilement la matrice Hessienne H et sont inverse. Ce calcul
nécessite des itérations plus nombreuses et couteuses dans les problèmes de grandes tailles.
1
2-Comme xk+1 = xk [H (xk )] rf (xk ) On voit bien que le successeur xk+1 de xk n’est
pas toujours bien dé…ni.

3-Même si H (xk ) 1 existe la direction dk = [H (xk )] 1

rf (xk ) n’est pas toujours une
direction de descente.
Théorème 3.3.1 Soit F est une fonction de classe C 2 de Rn dans Rn et x un zéro de

F (c’est-à-dire F (x ) = 0). On suppose en outre que ce zéro est isolé et que DF (x ) est
inversible (DF désigne la dérivée première de F ).
Alors il existe une boule fermée B centrée en x telle que, pour tout point x0 2 B, la
suite (xk ) dé…nie par la méthode de Newton est entièrement contenue dans B et converge
vers x qui est le seul zéro de F dans B.
En…n la convergence est géométrique : il existe 2]0; 1[ tel que
k
8k 0 kxk x k kx0 x k :
En d’autres termes, si on choisit le point de départ x0 “assez près” de x , alors
l’algorithme converge vers x .
Preuve. Comme F est C 1 et DF (x ) est inversible, il existe une boule centrée en x :

B(x ; r0 ) sur laquelle DF ( ) est inversible et DF ( ) 1 est uniformément bornée par m.
Appliquons la formule de Taylor avec reste intégral entre x et un itéré xk en supposant
que xk 2 B(x ; r0 ) :
R1
F (x ) F (xk ) = DF (xk )(x xk ) + D2 F (x + t(xk x )) (x xk )2 tdt:
0
Comme F est C 2 , D2 F est continue et uniformément bornée sur B(x ; r0 ) par un réel
M > 0, et nous avons
R1 M
D2 F (x + t(xk x )) (x xk )2 tdt kx xk k 2 :
0 2
Par conséquent, comme
1
xk+1 x = xk x DF (xk ) [F (xk ) F (x )]
= DF (xk ) 1 [F (x ) F (xk ) DF (xk )(x xk )]
1
R1
= DF (xk ) D2 F (x + t(xk x )) (x xk )2 tdt ;
0
on obtient
M
kxk+1 xk m kx xk k 2 : (3.5)
2
2
Posons r = min(r0 ; ; 1) ; il est alors facile de voir par récurrence que si x0 2
mM
B(x ; r) alors pour tout k, xk 2 B(x ; r) : la suite des itérés est bien dé…nie et reste dans

3.4. MÉTHODE DE QUASI NEWTON OU QUASI-NEWTONNIENNES
mM
la boule. Posons alors ek = kxk x k. La relation (3:5) donne
2
ek+1 e2k :
mM
La suite ek converge donc vers 0 si e0 = kx0 x k < 1, cad si x0 est dans la
2
1
boule B(x ; r ) où r = min(r; ) par exemple.
mM
Pour obtenir une méthode qui converge superlinéairement, il est nécessaire d’approxi-
mer l’étape de Newton asymptotiquement. C’est le principe de Dennis et Moré. Comment
peut-on y aboutir sans évaluer la matrice Hessienne dans chaque itération ?
La réponse à été découverte par Davidon en 1959 et a été développée et popularisée par
Fletcher et Powell en 1963. Elle consiste à commencer par n’importe quelle approximation
de la matrice Hessienne et à chaque itération, on améliore la matrice en introduisant la
courbure du problème mesuré tous au long de l’étape. Si cette amélioration est faite
correctement, on obtient quelques méthodes remarquablement robustes et e¢ caces, qu’on
appelle les méthodes de la variable métrique ou quasi Newton. Ils ont libéré l’optimisation
non linéaire en procurant une alternative à la méthode de Newton, qui est très coûteuse
pour plusieurs applications.
Il y a plusieurs méthodes de variable métrique, on s’étalera particulièrement sur les trois
plus importantes, la méthode de correction de rang un, la méthode DFP (Davidon, Fet-
cher, Powell), et la méthode BFGS (Broyden, Fletcher, Goldfarb, Shano).
3.4 Méthode de quasi Newton ou quasi-Newtonniennes

Une méthode de quasi Newton est une méthode de type :
(
xk+1 = xk + k dk ;
(3.6)
dk = Bk gk ;
ou bien
(
xk+1 = xk + k dk ;
(3.7)
dk = Sk 1 gk ;
où Bk (respectivement Sk ) est une matrice destinée à approcher l’inverse du Hessien de f
(respectivement le Hessien) de f en xk . Le problème posé est : quelle stratégie à adopter
pour faire cette approximation ? On peut par exemple poser B1 = I, mais comment ensuite
mettre à jour l’approximation Bk au cours des itérations ?
L’idée est la suivante :

Prenons f 2 C 2 (Rn ), et faisons un développement de rf (x) au voisinage de xk .
rf (x) = rf (xk ) + H (xk ) (x xk ) + 0 (kx xk k)

' rf (xk ) + H (xk ) (x xk ) ;
ce qui implique
1
[H (xk )] [rf (x) rf (xk )] ' x xk :
Les approximations sons exacts si f est quadratique. En particulier avec x = xk+1 et si

Bk était une bonne approximation de [H (xk )] 1 alors
Bk [g (xk+1 ) g (xk )] ' xk+1 xk :
On peut imposer que Bk+1 satisfait cette équation exactement d’où
Bk+1 [g (xk+1 ) g (xk )] = xk+1 xk : (3.8)
3.4.1 Formules de mise à jour de l’approximation du Hessien
Le principe de la mise à jour consiste à une itération donnée de l’algorithme

(
xk+1 = xk + k dk ;
dk = Bk gk ;
à appliquer une formule de type
Bk+1 = Bk + k; (3.9)
avec k symétrique, assurant la relation de quasi Newton. ainsi que Bk+1 dé…nie positive,
sous l’hypothèse que Bk est dé…nie positive.
La formule (3.9) permet d’utiliser les nouvelles informations obtenues lors de l’étape k
de l’algorithme, c’est à dire essentiellement le gradient gk+1 = rf (xk+1 ) au point xk+1 ,
obtenu par une recherche linéaire (exacte où approchée) dans la direction dk . Il existe
di¤érentes formules de type (3.6). Suivant que k est de rang un ou deux, on parlera de
correction de rang un ou de rang deux.

3.4.2 Méthode de correction de rang un

Etend donné que [H (xk )] 1 est symétrique, la formule de mise à jour de l’approximation
du Hessien Bk est la suivante :
Bk+1 = Bk + ak uk uTk ; uk 2 Rn ;
donc la condition de quasi Newton s’écrit comme suit
sk = Bk + ak uk uTk yk ;
ou encore
sk Bk yk = ak uk uTk yk :
D’ou l’on déduit que uk est proportionnel à sk Bk yk , avec un facteur qui peut être pris
en compte dans ak . Un choix évident pour véri…er cette dernière équation est de prendre
uk = sk Bk yk et ak tel que ak uTk yk = 1, on obtient :
(sk Bk yk ) (sk Bk yk )T
Bk+1 = Bk + : (3.10)
(sk Bk yk )T yk
Algorithme 2.2
Etape initiale : Soit " > 0, déterminer le critère d’arrêt. Choisir un point initial x1 et
une matrice symétrique dé…nie positive B1 poser k = 1, et aller aux étapes principales.
Etape principale :
Etape 1 : Si krf (xk )k < ". stop ; sinon, poser dk = Bk rf (xk ) et soit k solution
optimale du problème min f (xk + dk ) ; 0: et poser xk+1 = xk + k dk :
Etape 2 : Construire Bk+1 comme suit :
(sk Bk yk ) (sk Bk yk )T
Bk+1 = Bk + ;
(sk Bk yk )T yk
avec
sk = xk+1 xk ;
yk = rf (xk+1 ) rf (xk ) :
Remplacer k par k + 1 et aller a l’étape 1.
Théorème 3.4.1 Si f est quadratique, de matrice Hessienne H dé…nie positive et si

s1; s2 ; : : : sn sont des vecteurs indépendants, alors la méthode de correction de rang un

converge au plus dans (n + 1) itérations et (Bn+1 ) 1 = H.
Avantages
Cette méthode présente l’avantage, que le point xk+1 n’a pas besoin d’être choisi
comme le minimum exact, c’est à dire qu’on n’a pas besoin d’e¤ectuer des recherches
linéaire exactes.
Inconvénients
-Même si la fonction est quadratique, et même si son Hessien est dé…ni positif, il se
peut que la matrice Bk ne soit pas dé…nie positive.
-Le dénominateur (sk Bk yk )T yk peut devenir nul ou très petit, ce qui rendre le
procédé instable.
3.4.3 Méthode de Davidon Fletcher Powell (DFP)
Cette méthode a été proposée par Davidon en 1959 et développé plus tard en 1963 par
Fletcher. La formule de mise à jour de DFP est une formule de correction de rang deux.
De façon plus précise construisons Bk+1 en fonction de Bk de la forme :
Bk+1 = Bk + Ak + k; (3.11)
avec k et Ak deux matrices de rang un tel que
Ak = ak uk uTk ; k = bk vk vkT ;
ak , bk sont des constantes, uk , vk sont deux vecteurs de Rn .

Bk+1 doit satisfaire la condition quasi Newton c’est à dire
xk+1 xk = Bk+1 [gk+1 gk ] :
Si on pose par suite

sk = xk+1 xk , yk = gk+1 gk ;
donc

sk = Bk+1 yk (3.12)
= Bk + ak uk uTk + bk vk vkT yk ;
par suite
ak uk uTk yk + bk vk vkT yk = sk Bk yk ;
Un choix évident pour satisfaire cette équation est de prendre
uk = sk , vk = Bk yk , ak uTk yk = 1, bk vkT yk = 1;
d’où
sk sTk Bk ykT yk Bk
Bk+1 = Bk + : (3.13)
sTk yk ykT Bk yk
Remarque 3.4.1 Le résultat suivant montre que sous certaines conditions, la formule
(3.13) conserve la dé…nie positivité des matrices Bk .
Théorème 3.4.2 On considère la méthode dé…nie par

(
xk+1 = xk + k dk ;
dk = Bk gk ;
où k optimal, B1 dé…nie positive est donnée ainsi que x1 , alors les matrices Bk sont
dé…nies positives.
Exemple 3.4.1 La propriété sTk yk > 0 est véri…ée également par des méthodes de re-
cherche linéaires approchées comme par exemple la règle de Wollf et Powell.
En e¤et :
Dans ce cas on détermine un point xk+1 tel que
0
( k ) = rf (xk+1 )T dk 2 rf (xk )T dk 0< 2 < 1;
d’où
T xk+1 xk xk+1 xk
gk+1 > gkT ;
k k
(gk+1 gk )T sk > 0:

Algorithme 2.3
Etape initiale :
1-Soit " > 0, déterminer le critère d’arrêt. Choisir un point initial x1 et une matrice
symétrique dé…nie positive B1 quelconque (par exemple B1 = I) poser k = 1, et aller aux
étapes principales
Etapes principales.
Etape 1 :Si krf (xk )k < " stop ; sinon, poser dk = Bk gk et déterminer le pas optimal
k solution optimale du problème min f (xk + dk ), 0. et poser xk+1 = xk + k dk
Etape 2 :Construire Bk+1 comme suit :
sk sTk Bk yk ykT Bk
Bk+1 = Bk + ;
sTk yk ykT Bk yk
avec
sk = xk+1 xk :
yk = rf (xk+1 ) rf (xk ) :

Cet algorithme a un comportement remarquable dans le cas où f est une fonction qua-
dratique
Théorème 3.4.3 Appliqué à une forme quadratique f , l’algorithme DFP décrit par la
relation
sk sT Bk yk ykT Bk
Bk+1 = Bk + T k ;
sk y k ykT Bk yk
engendre des directions conjuguées s1 ; s2::::::::::: sk véri…ant
sTi Hsj = 0 1 i<j k; (3.14)

Bk+1 Hsi = si 1 i k: (3.15)
Avantages
1-Pour des fonctions quadratiques (avec une recherche linéaire exacte) :

1
-L’algorithme converge dans au plus n étapes avec Bn+1 = H .
-elles engendrent des directions conjuguées.
2-Pour les fonctions quelconques :
-la matrice Bk reste dé…nie positive, ce qui est nécessaire pour que la direction soit
une direction de descente.

Inconvénients
-la méthode DFP est sensible à la précision de la recherche linéaire.
3.4.4 Méthode de Broyden, Fletcher, Goldfarb et Shanno(BFGS)

La formule de mise à jour de Broyden, Fletcher, Goldfarb et Shanno est une formule de
correction de rang deux, qui s’obtient à partir de la formule DFP en intervertissant les
rôles de sk et yk . La formule obtenue permet de mettre à jour une approximation Bk de
Hessien lui meme et non de son inverse comme dans le cas de la méthode DFP. On exigera
que posée dans les mêmes propriétés, à savoir Bk+1 reste dé…nie positive si Bk l’est et bien
sur l’équation d’approximation de quasi Newton doit etre véri…ée, c’est à dire :
Bk+1 sk = yk :
On obtient donc
yk ykT Bk sk sTk Bk
Bk+1 = Bk + : (3.16)
ykT sk sTk Bk sk
Algorithme 2.4
Etape initiale : Soit " > 0, déterminer le critère d’arrêt. Choisir x1 point initial et
B1 dé…nie positive quelconque (par exemple B1 = I).
Poser k = 1 et aller aux étapes principales
Etapes principales.
Etape 1 : Si krf (xk )k < " stop ; sinon, poser dk = Bk gk et déterminer le pas
optimal k solution optimale du problème min f (xk + dk ), 0 et poser xk+1 = xk +
k dk
Etape 2 : Construire Bk+1 comme suit :
yk ykT Bk sk sTk Bk
Bk+1 = Bk + ;
ykT sk sTk Bk sk
avec
sk = xk+1 xk ;
yk = rf (xk+1 ) rf (xk ) :

Exemple 3.4.2 1-Notons que la direction dk est obtenue par une résolution d’un système
linéaire. En particulier la mise à jour de Bk est faite directement sur le facteur de Cholesky
Ck où Bk = Ck CkT ce qui ramène le calcule de dk au même coût que pour la formule de
DFP
2-La méthode BFGS possède les mêmes propriétés que la méthode DFP dans le cas
quadratique. Les directions engendrées sont conjuguées. Cette méthode est reconnue comme
étant beaucoup moins sensible que la méthode DFP aux imprécisions dans la recherche
linéaire, du point de vue de vitesse de convergence. Elle est donc tout à fait adaptée quand
la recherche linéaire est faite de façon économique, avec par exemple la règle de Goldstein
ou la règle de wolf et Powell.
yk y T Bk sk sTk Bk
3-La relation Bk+1 = Bk + T k permet de construire une approximation
y k sk sTk Bk sk
de la matrice Hessienne elle même (et non pas son inverse).
En e¤ et : Posons
yk ykT Bk sk sTk Bk
Ck = : (3.17)
ykT sk sTk Bk sk
Nous avons
1 1
Hk+1 = [Bk+1 ] = [Bk + Ck ] :
Par application de la formule de Sherman-Morrison-Woodbury suivante
1 A 1 abT A 1
A + abT =A 1
; (3.18)
1 + bT A 1 a
où A est une matrice inversible, et b est un vecteur de Rn , et en supposant que bT A 1 a 6=

1, alors on a
1
1 1 yk y T Bk sk sTk Bk
Sk+1 = [Bk+1 ] = [Bk + Ck ] = Bk + T k :
y k sk sTk Bk sk
Posons
yk ykT Bk sk
A = Bk + T
,a= T , bT = sTk Bk ;
yk sk sk Bk sk
donc
1 1
yk y T Bk sk T yk ykT
1 Bk + T k s Bk Bk +
yk y T y k sk sTk Bk sk k ykT sk
Hk+1 = Bk + T k 1 : (3.19)
y k sk yk ykT Bk sk
1 + sTk Bk Bk + T T
y k sk sk Bk sk

1
yk ykT
On doit calculer Bk + , pour cela on applique la formule de Sherman-Morrison-
ykT sk
Woodbury une deuxième fois, on pose
yk
A = Bk , a = T
, bT = ykT ;
y k sk
1 yk T
1 [Bk ] yk [Bk ] 1
yk ykT 1
T
y k sk
Bk + = [Bk ] yk
ykT sk 1 + ykT [Bk ] 1 T
y k sk
1 [Bk ] yk yk [Bk ] 1
1 T
= [Bk ] :
ykT sk + ykT [Bk ] 1 yk
Remplaçons cette dernière dans la formule (3.19) et d’après un calcule on obtient
1 1
Hk+1 = [Bk+1 ] = [Bk ]
" #
y T [Bk ] 1 yk sk ykT [Bk ] 1
+ [Bk ] 1
yk sTk
+ 1+ k T T
sk y k sk yk
ykT Hk yk sk sTk sk ykT Hk + Hk yk sTk
= Hk + 1 + : (3.20)
sTk yk sTk yk sTk yk
3.4.5 Les méthodes de classe Broyden

Une méthode de classe Broyden est une méthode de quasi-Newton où l’approximation de
l’inverse du Hessien prendre la formule suivant :
Bk sk sTk Bk yk ykT
Bk+1 = Bk + T + sTk Bk sk vk vkT ; (3.21)
sTk Bk sk y k sk
yk Bk sk
tel que 2 [0; 1] ; vkT = T T
:
yk sk sk Bk sk
Si = 0 on obtient la méthode BFGS, car la formule (3.20) devient
Bk sk sTk Bk yk ykT
Bk+1 = Bk + ;
sTk Bk sk ykT Sk
c’est exactement la formule de l’approximation de la méthode BFGS.

Si = 1 on obtient la méthode DFP.

3.5. MÉTHODE DE RELAXATION
3.5 Méthode de relaxation

La dernière méthode que nous présentons permet de ramener un problème de mini-
misation dans Rn à la résolution successive de n problèmes de minimisation dans R (à
chaque itération).
On cherche à minimiser J : Rn ! R ; posons X = (x1 ; :::; xn ). Le principe de la
méthode est le suivant : étant donné un itéré X k de coordonnées (xk1 ; :::; xkn ), on …xe
toutes les composantes sauf la première et on minimise sur la première :
min J(x; xk2 ; xk3 ; :::; xkn ); x 2 R .
On obtient ainsi la première coordonnée de l’itéré suivant X k+1 que l’on note xk+1
1 ;
on peut, pour e¤ectuer cette minimisation dans R, utiliser par exemple la méthode de
Newton dans R.
On recommence ensuite en …xant la première coordonnée à xk+1 1 et les n 2 der-
nières comme précédemment. On minimise sur la deuxième coordonnée et ainsi de suite.
L’algorithme obtenu est le suivant :
Méthode de relaxation successive
1. Initialisation
k = 0 : choix de X 0 2 Rn .
2. Itération k
pour i variant de 1 à n, on calcule la solution xk+1
i de
min J(xk+1 k+1 k+1 k k

1 ; x2 ; :::; xi 1 ; x; xi+1 ; :::; xn ); x 2 R .
3. Critère d’arrêt
Si kxk+1 xk k < " , STOP
Sinon, on pose k = k + 1 et on retourne à 2.

3.6. TRAVAUX PRATIQUES
3.6 Travaux pratiques

TP 01
1- Programmer et tester les algorithmes suivante :.
–Gradient à pas constant.
–Algorithme de Newton.
–Relaxation avec sous-programme Newton (pour R).
2- Pour chacun d’entre eux, une étude de sensibilité sur le point de départ (initialisa-
tion) et le pas éventuel sera menée le plus rigoureusement possible. On fera une compa-
raison numérique des trois méthodes surtout en termes de :
–Vitesse de convergence - nombre d’itérations - temps CPU.
–Robustesse et domaine de validité en particulier sur les exemples suivants (f de R2
dans R).
a) f (x; y) = x2 5xy + y 4 25x 8y;
b) f (x; y) = 5x2 5y 2 xy 11x + 11y + 11;
c) f (x; y) = (x4 3) + y 4 ;
d) f (x) = x41 4x31 + 6 (x21 + x22 ) 4 (x1 + x2 ) ;
e) f (x) = 21 xt Gx + ct x avec
2 3 2 3
2 1 0 0 :: :: 1
6 7 6 7
6 1 2 1 0 :: :: 7 6 1 7
6 7 6 7
6 0 7 6 .. 7
6 1 2 1 0 :: 7 6 . 7
G=6 . . . 7 c=6
6 ..
7:
7
6 :: .. .. .. :: :: 7 6 . 7
6 7 6 7
6 7 6 7
4 :: :: 0 1 2 1 5 4 1 5
:: :: :: 0 1 2 1
TP 02
Programmer l’algorithme du gradient conjugué pour résoudre Ax = b ; comparer avec
les procédures de MATLAB en terme de précision et de temps CPU.
On fera des tests sur des matrices dé…nies positives de grande taille et sur l’exemple
suivant : 0 1 0 1
0; 78 0; 02 0; 12 0:14 0; 76
B C B C
B 0; 02 0; 86 0; 04 0; 06 C B 0; 08 C
A=B B 0; 12
C et b = B
C B
C:
C
@ 0; 04 0; 72 0; 08 A @ 1; 12 A
0; 14 0; 06 0; 08 0; 74 0; 68

3.6. TRAVAUX PRATIQUES
TP 03
On considére le problème de minimisation sans contraintes sur Rn
(P ) minn f (x) :
x2R
a) Initialisation : i = 0
z0 2 Rn est tel que l’ensemble Cz0 = fz 2 Rn j f (z) f (z0 )g est borné et le Hessien
2
H(z) = @ @zf (z)
2 est dé…ni positif sur cet ensemble.
Soit 2 0; 12 :
b) Itération i
• Calcul de rf (zi ) : Si rf (zi ) = 0 , STOP
SINON : calcul de H(zi )
• On pose : h(zi ) = H(zi ) 1 rf (zi )
• Calcul de i par la procédure suivante :
Soit 1 ( ; z) = (f (z + h(z)) f (z)) (1 ) hrf (z); h(z)i et
2 ( ; z) = (f (z + h(z)) f (z)) hrf (z); h(z)i
1. = 1
2. Calcul de 1 ( ; zi )
3. ISi 1 ( ; zi ) = 0, on pose i = et STOP
ISi 1 ( ; zi ) < 0 , on pose = + 1 et RETOUR à b.
I Si 1 ( ; zi ) > 0 on continue à 4.
4. Calcul de Calcul de 2 (1; zi )
5. ISi 2 (1; zi ) 0, on pose i = et STOP
ISinon on pose t0 = 1 ,r0 = et on continue à 6.
6. ( on a i 2 [t0 ; r0 ])
On pose j = 0
t +r
7. Calcul de j = j 2 j ; de 1 ( j ; zi ) et de 2 ( j ; zi )
8. Si 1 ( j ; zi ) 0 et 2 ( j ; zi ) 0 on pose j = j et STOP
SINON on va à 9.
9. Si 1 ( j ; zi ) > 0 alors tj+1 = tj et rj+1 = j , j = j + 1 et on va à 7.
SINON tj+1 = j et rj+1 = j , j = j + 1 et on va à 7.
c) zi + 1 = zi + i h(zi ), i = i + 1:


Exercice 01
a) Soient p1 = 52 et p2 = 44 les prix respectifs de deux produits . Soient q1 et q2 les
quantités respectives de ces produits. Le revenu issu de la vente est donc : R = p1 q1 +p2 q2 .
Q
La fonction coût est : C = q12 + q1 q2 + q22 et le béné…ce réalisé est : = R C. Trouver
les quantités q1 et q2 maximisant le béné…ce.
b) Même problème avec des prix adaptatifs , i.e. variant en fonction de la quantité de
produits : (
p1 = 256 3q1 q2 ;
p2 = 222 + q1 5q2 ;
Exercice 02
On veut résoudre le système suivant par une méthode de gradient à pasramètre opti-
mal : (
1
2
x=0
c
où c 1:
2
y = 0
a) Ecrire le système sous la forme Ax = b et calculer les valeurs propres de A:
b) Soit r le résidu : b Ax: Calculer r et le paramètre correspondant à la minimisation
sur R de la fonction qui à associe J(xk + rk ):
c) Soit Pk le point de coordonnées xk et yk : Exprimer xk+1 et yk+1 en fonction de xk
et yk :
Exercice 03
On veut résoudre le système Ax = b; x 2 Rn (avec A symétrique, dé…nie, positive)
par une méthode
de gradient à pas constant.
Soit x la solution de ce système.
On propose l’algorithme suivant :
8
>
< x0 ; r0 = b Ax0 ;
xk+1 = xk + rk ;
>
:
ou rk = b Axk ;
est un réel constant.

a) Soit ek = xk x (pour k 0); montrer que ek = (I A)k e0 ;
(pour k 0).
b) soient 0 < n n 1 ::: 1 les valeurs propres de A:
2
Montrer que l’lgorithme converge si et seulement si 0 < < 1
:

2
c) Montrer que le meilleur choix de est : opt = 1+ n
et qu’alors :
1 n
(I opt A) = :
1 + n
Exercice 04
On veut résoudre le système suivant par une méthode de gradient à pasramètre opti-
mal : (
1
2
x=0
c
où c 1:
2
y=0
a) Ecrire le système sous la forme Ax = b et calculer les valeurs propres de A:

b) Soit r le résidu : b Ax:
Calculer r et le paramètre correspondant à la minimisation sur R de la fonction qui
à associe J(xk + rk ):
c) Soit Pk le point de coordonnées xk et yk : Exprimer xk+1 et yk+1 en fonction de xk
et yk :
yk
d) Soit tk = xk
la pente de la droite (OPk ) ; tq O (0; 0). Exprimer tk+2 en fonctio de
tk :
Interprétation géométrique. Conclusion ?
e) Soit t 2 ftk ; tk+1 g (k donné).
2 yk+2 xk+2
On appelle le facteur moyen de réduction de l’erreur : = yk
= xk
:
Montrer que :
2 c 1 1
= :
c+1 1+ c 1 2
(c+1)2
ct ct
Pour quelle valeur de t , est-il maximum ?

Exercice 05
On considere la fonction
1 1
f (x; y) = x2 + y 2 :
2 2
En partant du point initial (x0 ; y0 ) = (1; 1) et en appliquant la méthode du gradient
avec k optimale, calculez (x1 ; y1 ) ; (x2 ; y2 ) et (x3 ; y3 ) :
Exercice 06
Soit f : R2 ! R dé…nie par
1 2
f (x; y) = x + y2 ;
2

et (P ) le problème de minimisation sans contraintes suivant :
1 2
(P ) : x + y 2 : (x; y) 2 R2 :
2
1) Pour quelles valeurs de , f est quadratique strictement convex.

2) On suppose que = 1. En partant du point (x0 ; y0 ) = (1; 1) ; appliquez la méthode
du gradient conjugué au problème (P ) et trouvez la solution minimale globale du
problème (P ).
Exercice 07
On considére f (x) = 12 xT Qx bt x; avec Q symétrique dé…nie positive, x 2 Rn ; b 2 Rn
et k est obtenue par une recherche linéaire exacte.
a) Ecrire l’algorithme du gradient conjugué quadratique
b) Montrez que gkT dk 1 = 0 8k
c) Montrer que dk est une direction de descente
g T Qdk
d) Si k = dk+1 T Qd
k
; montrez que k = HS
k = Pk RP = Fk R = CDk :
k
T
(gk+1 gk = 0)
T T
HS gk+1 (gk+1 gk ) P RP gk+1 (gk+1 gk ) FR kgk+1 k2 CD kgk k2
( k = dT (g k+1 gk )
; k = kgk k2 ; k = kgk k2
et k = T
dk 1 gk 1
)
k
Exercice 08
Véri…er que le calcul de l’inverse d’un scalaire par la méthode de Newton correspond
à la méthode itérative :
xk+1 = xk (2 xk ) ; k 0:
Construire , par analogie , une méthode itérative d’approximation de l’inverse d’une

matrice inversible A , de la forme :
(
B0 matrice arbitraire,
Bk+1 = fonction(Bk ; A); k 0:
Démontrer qu’une CNS de convergence de cette méthode est : (I AB0 ) < 1 où

(I AB0 ) désigne le rayon spectral de la matrice I AB0 .
Supposant la matrice A symétrique , dé…nie, positive et supposant connu son rayon
spectral, comment choisir simplement la matrice B0 pour véri…er la condition précédente ?

Exercice 09
Une variante de la méthode de Newton pour la résolution des systèmes d’équations
non linéaires est la méthode de Gauss-Seidel qui se présente sous la forme suivante :
(k) (k) (k)

f1 x1 ; x2 ; :::; xn
(k+1) (k)
x1 = x1 ;
(k) (k) (k)
@1 f1 x1 ; x2 ; :::; xn
(k+1) (k) (k)

f 2 x1 ; x2 ; :::; xn
(k+1) (k)
x2 = x2 ;
(k+1) (k) (k)
@2 f2 x1 ; x2 ; :::; xn
..
.
(k+1) (k+1) (k+1) (k)
f n x1 ; x2 ; :::; xn 1 ; xn
x(k+1)
n = x(k)
n ;
(k+1) (k+1) (k+1) (k)
@n fn x1 ; x2 ; :::; xn 1 ; xn
@
où @i = @xi
:
P
n
Montrer que si les fonctions fi sont a¢ nes : fi (x) = aij xj bi , cette méthode n’est
j=1
autre que la méthode itérative de Gauss-Seidel pour le résolution des systèmes linéaires.

Exercice 01
a) q1 = 20 et q2 = 12.
b) q1 = 30 et q2 = 16.
Exercice 03
1. Comme ek = xk x , on obtient
ek+1 = ek + rk = ek + (b A(ek + x))
= ek + (b| {zAx} Aek ) = (I A)ek .
=0
On conclut par récurrence.
2. Dire que ek converge vers 0 est équivalent à dire que le rayon spectral de I A
est strictement inférieur à 1. Les valeurs propres de I A sont (1 i )i=1;:::;n où
( i )i=1;:::;n sont les valeurs propres de A rangées de manière croissante. On doit donca-
voir :
max j1 ij < 1 c’est-à-dire :
i=1;:::;n
1<1 1 ::::1 n 1 1 n < 1:

On doit donc avoir d’une part > 0 (car les valeurs propres de A sont toutes stricte-
ment positives), et d’autre part
2
< 1 :::: n 1 n;
2 2
c’est-à-dire > 1 :::: n 1 n ; il su¢ t donc que < 1
.
3. Le meilleur choix de correspond au cas où le rayon spectral (I A) est minimal.
Or (I A) = max fj1 1 j ; j1 n jg . Une résolution graphique montre que
min max fj1 1 j ; j1 n jg est atteint lorsque 1 n = 1 1 , c’est-à-dire

lorsque = 1 +2 n .
Exercice 04 !
1
0 1
1. A = 2
c
et les valeurs propres sont 2
et 2c .
0 2!
x
2
2. r = cy
et la fonctionnelle J associée est :
2
! !
x
1 x 1 2
J(x; y) = 2
cy
= x + cy 2 .
2 2
y 4
Cherchons le minimum de '( ) = J(xk + rk ).
1 2 c 2
'( ) = x2k 1 + cyk2 1 .
4 2 2
x2 +c2 y 2
On véri…e que le minimum de ' est atteint pour ' = 2 xk2 +c3 yk2 .
k k
3. Un calcul élémentaire donne
c2 (c 1)xk yk2 (c 1) x2k yk

xk+1 = et yk+1 = :
x2k + c3 yk2 x2k + c3 yk2
4. tk+1 = c21tk pour tout k. Donc tk+2 = tk ce qui signi…e que les droites OPk+2 et
OPk sont parallèles. Par conséquent, pour tout k, les points O; Pk et Pk+2 sont alignés.
2
5. Calcul de :
yk+1 (1 c) x2k (1 c)
= 2 2
= :
yk 3
xk + c y k 1 + c3 t2k
Donc
2 (1 c)2 (1 c)2
= = 1
:
(1 + c3 t2k ) 1 + c3 t2k+1 (1 + c3 t2 ) 1 ct2
On retrouve après calcul la formule annoncée. La quantité est maximale quand

(ct ct1 )2 est minimum c’est-à-dire nul. La valeur de t correspondante est 1c .

Exercice 08
1
Si on cherche les zéros de la fonction f : x 7 ! x
, la méthode de Newton donne
précisément l’itération indiquée.
En généralisant aux matrices, l’algorithme devient :
(
B0 donnée,
Bk+1 = Bk (2I ABk ).
Si on pose Ck = ABk , l’itération k s’écrit Ck+1 = 2Ck Ck2 , c’est-à-dire I Ck+1 =

k k
(I Ck )2 et par récurrence : I Ck = (I C0 )2 = (I AB0 )2 . Donc la méthode converge
si et seulement si (I AB0 ) < 1.
Lorsque A est symétrique, dé…nie positive elle admet N valeurs propres réelles stricte-
1
ment positives i . Si on choisit pour B0 = (A) I, un calcul rapide montre que (I AB0 ) <
1.
Exercice 09
Dans le cas où les fonctions fi sont a¢ nes on obtient
@i fj (x1 ; x2 ; :::; xn ) = aij :
La méthode de Newton relaxée s’écrit alors pour 1 i n
iP1 P
n
aij xk+1
j + aij xkj bi
j=1 j=i
xk+1
i = xki ,
aii
c’est-à-dire
P
i P
n
aij xk+1
j = aij xkj + bi .
j=1 j=i+1
On reconnait la forme matricielle : (D L)xk+1 = U xk + b , caractéristique de la

méthode de Gauss-Seidel (où D est la diagonale de A, L (respectivement U ) l’opposée de
la partie triangulaire inférieure (respectivement supérieure) de A.

Bibliographie
[1] M. Bergounioux, Optimisation et controle des systèmes linéaires, Dunod, Paris, 2001.
[2] M. Bierlaire, Introduction à l’optimisation di¤érentiable, PPUR, 2006.
[3] M. Bazaraa, N. Sherali, and C. Shetty, Nonlinear Programming, Theory and Appli-
cations, John Wiley & Sons, New York, Second ed, 1993.
[4] J-F. Bonnans, J-C. Gilbert, C. Lemaréchal, C. Sagastizàbal, Optimisation Numé-
rique, Aspects théoriques et pratiques, Springer M&A 27, 1997.
[5] R. Fletcher (1987), Practical methods of optimization, John Wiley&Sons, Chichster.
[6] R. Fletcher, Practical Methods of Optimization vol. 1 : Unconstrained Optimization,
John Wiley & Sons, New York, 1987.
[7] J. C. Gilbert , Eléments d’optimisation di¤érentiable : théorie et algorithmes, Notes
de cours, École Nationale Supérieure de Techniques Avancées, Paris, (2007).
[8] J-B. Hiriart-Urruty, Optimisation et analyse convexe, exercices corrigés, EDPs-
ciences, 2009.
[9] J. Nocedal, and S. J. Wright, Numerical Optimization, Springer Series in Operations
Research and Financial Engineering, second ed, 2006.
[10] Y. Yuan, Numerical Methods for Nonlinear Programming, Shanghai Scienti…c &
Technical Publishers, 1993.
69

2015 223 Ee383

Transféré par

Informations du document

Titre original

Copyright

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

2015 223 Ee383

Transféré par

Droits d'auteur :

Université Mohamed Chérif Messaadia de Souk-Ahras

Faculté des Sciences et Technologie

Cours d ’Optimisation Sans

Site web :http ://www.univ-soukahras.dz/fr/pro…le/mbellou…

OPTIMISATION SANS CONTRAINTES

0.1 Optimisation sans contraintes

Dr.Bellou… Mohammed - U Souk Ahras Optimisation

1 Quelques rappels de calcul di¤érentiel, Convexité 5

2 Minimisation sans contraintes 19

3.1.1 Algorithme du Gradient . . . . . . . . . . . . . . . . . . . . . . . . 33

Dr.Bellou… Mohammed - U Souk Ahras 1 Optimisation

modèle, de l’e¢ cacité de l’algorithme et des moyens pour le traitement numérique.

Dr.Bellou… Mohammed - U Souk Ahras 2 Optimisation

timale, l’optimisation stochastique (en) et robuste (en) (présence d’aléas), l’optimisation

Dr.Bellou… Mohammed - U Souk Ahras 3 Optimisation

Remarquons toute fois que comme on a

sup f (x) = inf ( f (x))

alors le problème de maximisation d’une fonction f est équivalent au problème de mini-

Dr.Bellou… Mohammed - U Souk Ahras 4 Optimisation

Quelques rappels de calcul

Dans ce chapitre, on dé…nit et on introduit les outils fonctionnels de base nécessaires

1.1.1 Dérivée partielle

Dé…nition 1.1.1 Soit f : Rn ! R une fonction continue. La fonction notée ri f (x) :

f (x1 ; :::; xi + ; :::; xn ) f (x1 ; :::; xi ; :::; xn )

Cette limite peut ne pas exister.

Dé…nition 1.1.2 On note par

le gradient de f au point x = (x1 ; ::; xn ):

Le gradient jouera un role essentiel dans le développement et l’analyse des algorithmes

Remarque 1.1.2 Nous rappellons aussi la formule :

Proposition. 1.1.1 (Gradient de la composée) Supposons qu’on deux ouverts

r(g f )(x) = g 0 (f (x)) 5 f (x) 8x 2 .

Exemple 1.1.2 f (x1 ; x2 ) = x21 x2 + 2, g (x) = 2x + 1.

Dr.Bellou… Mohammed - U Souk Ahras 6 Optimisation

1.1.3 Matrice Hessienne

Remarque 1.1.3 Si f 2 C 2 ( ) alors 52 f (x) est une matrice symmétrique 8x 2

Dé…nition 1.1.4 On dit que x est un point stationnaire de f si rf (x ) = 0.

Proposition. 1.1.2 (Lien entre r et r2 ) a) La i-ème ligne de 52 f (x) Jacobienne du

Exemple 1.1.4 Si f : Rn ! R est une fonction constante alors 5f = 52 f = 0:

Dr.Bellou… Mohammed - U Souk Ahras 7 Optimisation

Soit f : Rn ! R dé…nie par

f (x) =< a; x > 8x 2 Rn ;

(le gradient est constant).

Corollaire 1.1.1 Soit f : Rn ! R donnée par

f (x) =< Ax; x > 8x 2 Rn :

ce qui nous donne

Nous avons donc obtenu :

On peut aussi écrire

Dr.Bellou… Mohammed - U Souk Ahras 8 Optimisation

Donc la hessienne de f est constante.

Remarque 1.1.4 En particulier, si A est symmétrique (c’est à dire A = AT ) alors

1.1.4 Dérivée directionnelle

Remarque 1.1.5 Si kdk = 1 : la dérivée directionnelle est le taux d’accroissement de

Remarque 1.1.6 Pour tout x 2 et h 2 Rn on note

(c’est la dérivée directionnelle de f en x de direction h) où on a noté g(t) = f (x + th):

Remarque 1.1.7 Le taux d’accroissement est maximal dans la direction du gradient

Exemple 1.1.5 Soit f (x1 ; x2 ; x3 ) = ex1 + x21 x3 x1 x2 x3 et soit

Dr.Bellou… Mohammed - U Souk Ahras 9 Optimisation

La dérivée directionnelle de f dans la direction d est

(d1 d2 d3 ) rf (x1 ; x2 ; x3 ) = d1 (ex1 + 2x1 x3 x2 x3 ) d2 x1 x3 + d3 x21 x 1 x2

ou rf (x1 ; x2 ; x3 ) est donné par

Dé…nition 1.1.6 (Fonction di¤érentiable) Soit f : Rn ! R une fonction continue.

Remarque 1.1.8 Cette noyion est parfois appelée Gateaux-di¤érentiabilité , en ce

La dérivée directionnelle donne des informations sur la pente de la fonction dans la

1.1.5 Direction de descente

Le terminologie <<direction de descente>> est justi…ée par le théorème suivant.

Théorème 1.1.1 Soit f : Rn ! R une fonction di¤érentiable. Soient x 2 Rn tel que