Vous êtes sur la page 1sur 28

MINIMISATION OU MAXIMISATION NUMRIQUE: .........................................................................

2
INTRODUCTION:................................................................................................................................................. 2
RACINE D'UNE FONCTION: ........................................................................................................................ 3
MTHODE DE NEWTON POUR TROUVER UNE RACINE D'UNE FONCTION F(X): ............................................ 3
EXEMPLE: ............................................................................................................................................................. 3
MTHODE DE LA BISSECTRICE: ........................................................................................................................ 4
MTHODE DE LA SCANTE ET DE LA FAUSSE POSITION:................................................................................ 4
MINIMISATION UNI-DIMENSIONNELLE................................................................................................ 5
RECHERCHE SUR GRILLE ................................................................................................................................... 5
RECHERCHE PAR SECTION DU NOMBRE DOR ET FIBONACCI........................................................................ 5
APPROXIMATION QUADRATIQUE ET EXTRAPOLATION .................................................................................. 6
MTHODE ESSAI-ERREUR .................................................................................................................................. 7
MINIMISATION MULTI-DIMENSIONNELLE ......................................................................................... 7
RECHERCHE SUR GRILLE ET ALATOIRE......................................................................................................... 7
RECHERCHE PAR VARIATION DUN SEUL PARAMTRE................................................................................... 8
MTHODE DE ROSENBROCK.............................................................................................................................. 8
MTHODE DU SIMPLEXE (POLYGONE): ............................................................................................................ 9
MTHODES DE GRADIENTS - PLUS GRANDE PENTE (STEEPEST DESCENT) ........................................... 10
NEWTON-RAPHSON........................................................................................................................................... 11
FORMES QUADRATIQUES DFINIES POSITIVES .............................................................................................. 12
MTHODE DES DIRECTIONS CONJUGUES ..................................................................................................... 14
GRADIENTS CONJUGUS .................................................................................................................................. 16
MINIMISEURS MTRIQUE VARIABLE (VMM)............................................................................................. 17
THORIE .............................................................................................................................................................. 18
MTHODE DE DAVIDON-FLETCHER-POWELL ................................................................................................... 19
FORMULE DE RANG 1: ....................................................................................................................................... 20
APPROCHE UNIFIE DE FLETCHER POUR LES MTHODES MTRIQUE VARIABLE:........................................ 21
RECHERCHE LINAIRE APPROCHE : ................................................................................................................. 23
TECHNIQUES SPCIALISES ............................................................................................................................. 23
MINIMISATION CHI-CARR................................................................................................................................. 23
LIKELIHOOD MAXIMISATION ............................................................................................................................. 24
MINIMA LOCAUX ET GLOBAUX: ..................................................................................................................... 25
LE PROBLME DES MINIMA MULTIPLES:........................................................................................................... 25
LALGORITHME DE GELFAND ............................................................................................................................ 25
MTHODE DE GOLDSTEIN-PRICE....................................................................................................................... 26
AJUSTEMENT DE COURBE THORIQUE SUR DES POINTS EXPRIMENTAUX. .................... 27

Minimisation ou maximisation numrique :


[la partie minimisation est reprise en grande partie de Function minimization de F. James, CERN, Geneva, Proceedings of the
1972 CERN Computing and Data Processing School, Petisau, Austria,10-24 September, 1972]

Introduction :
La recherche du minimum ou du maximum dune fonction trouve des applications dans tous les
domaines.
Pour obtenir le minimum global dune fonction, il serait ncessaire de parcourir tout l'espace des
variables indpendantes, ce qui est gnralement impossible vu la grandeur de lespace et le
nombres de variables. De manire gnrale, toutes les mthodes de minimisation ne permettent
de trouver que des minimums locaux. En outre, la surface d'une fonction grand nombre de
variables peut tre trs accidente , ce qui limite les mthodes locales de recherche de minimum
(exemple: minimisation d'nergie en modlisation molculaire: les structures trouves par
minimisation d'nergie sont donc toujours relativement proches de la structure de dpart).
Toute fonction ayant un minimum peut tre assez bien approche par une parabole prs du
minimum (dveloppement limit). En effet, on peut exprimer la fonction f en x0 en srie de
Taylor :
df
x2 d 2 f
x 3 d 3 f
f (x0 + x) = f (x0 ) + x (x 0 ) +
(x ) +
(x )+...
dx
2 dx 2 0
3! dx 3 0
df
Si le minimum est x0, alors le 2me terme
(x ) = 0 , donc le terme dominant est le terme en
dx 0
x2 : en effet, x est petit, donc x2 est encore plus petit, et les puissances suivantes encore plus.
Donc on peut ngliger les termes en puissances suprieures 2 devant x2. On a finalement :
x 2 d 2 f
f (x0 + x) f (x0 ) +
(x )
2 dx 2 0
et on peut donc considrer que la fonction f est une fonction quadratique de x (parabole) prs du
minimum, de la forme
f (x0 + x) A + B x 2 , avec A et B constantes.
Note 1 : quand la fonction f est une fonction plusieurs variables (cest dire que x est un
f
vecteur), on a de mme lannulation de toutes les drives partielles
un minimum de la
x i
fonction (mais d'autres points qu'un maximum ou un minimum existent o les drives partielles
s'annulent, exemple des points selles).
Note 2 : la drive premire est la tangente la courbe, la drive
seconde donne la courbure

(nulle aux points dinflexions). Les mthodes de minimisation utilisant les drives de la fonction
sont dites "de gradients", c'est dire que la recherche du minimum en un point est faite dans la

direction oppose au gradient (

df
) de la fonction par rapport aux coordonnes, c--d. dans le
dx

sens de la plus grande pente.


Note 3 : pour une telle forme quadratique, on note que x0 est un minimum si et seulement si B est
positif. En effet, B est la moiti de la drive seconde, donc si B est positif, on a une courbure
positive. Si B est ngatif, x0 serait un maximum.
Dans le cas ou x est un vecteur, B est une matrice, et elle doit tre dfinie-positive pour avoir un
minimum en x0. En algbre linaire, la notion de matrice dfinie positive est analogue celle de
nombre rel strictement positif (B est dfinie positive si pour tout vecteur x, on a xtMx > 0, ou
bien si toutes ses valeurs propres sont positives, ou bien si x.y = xtMy est un produit scalaire sur
Rn (les 3 dfinitions tant quivalentes))

Racine d'une fonction:


La recherche du minimum d'une fonction peut se ramener la recherche d'une racine de la
drive de cette fonction (puisque la drive s'annule au minimum ou au maximum).
Note 1: gomtriquement, la drive est la pente de la tangente la courbe, et la drive seconde
est la courbure (inverse du rayon du cercle inscrit), la drive seconde s'annule au point
d'inflexion (rayon du cercle inscrit est infini = 1/(drive seconde)).
Note 2: gnralement, on ne pourra aller numriquement qu' la racine "locale", c'est dire la
plus proche.

Mthode de Newton pour trouver une racine d'une fonction f(x):

On dsire partir d'une approximation grossire de la racine, x1, et converger vers la "vraie" racine
par pas successifs. Donc on veut faire un pas x pour aller en x2, racine de f(x) (i.e. f(x2)=0), c'est
dire que x2=x1 + x.
On a donc f(x1 + x) = f(x2) = 0, or on sait (dveloppement de Taylor) qu'on peut approximer :
df
f (x1 + x) = f (x1 ) + x (x1 ) = f (x 2 ) = 0
dx
On obtient donc :
df
f (x1 ) + x (x1 ) = 0
dx
et par suite, le pas faire partir de x1 pour tomber sur x2 est :
f (x1)
f (x )
x = df 1 =
f ' (x1)
( x1 )
dx

Note: on a la mme chose dans un espace plusieurs dimensions avec les drives partielles dans
chaque direction

Exemple:
Trouver la racine de l'quation x2 =2 par approximations successives partir de 3.

f(x) = x2 2 et f'(x)=2x
x1= - 7/6 = -1,167, donc x2 = 3-1,167 = 1,833
x2= - 1,361/3,66 = 0,372, donc x3 = 1,833 0,372 = 1,461
x3= - 0,135/2,922 = 0,0462, donc x4 = 0,92 0,455 = 1,4147
(etc... la racine de 2 est 1,4142135624...)

Mthode de la bissectrice:
Si on sait qu'il y a une racine dans un intervalle donn par 2 points, on peut utiliser cette mthode.
Algorithme: prendre un point au milieu des 2 points, remplacer celui des 2 points initiaux qui est
de mme signe que le nouveau point. Itrer.
Si on sait qu'il y a une racine dans un intervalle 0, le nombre d'itrations requises pour avoir la
solution avec une prcision est n = log2(0/) o 0 est l'intervalle initial.
Si l'intervalle contient plusieurs racines, la mthode en trouvera une.
problme des cas pathologiques (exemple: sin(1/x).

Mthode de la scante et de la fausse position:


Pour les fonctions "smooth". Dans ces mthodes, on assume que la fonction est
approximativement linaire dans la rgion examine. L'estimation suivante de la racine est le
point o la ligne approximant la courbe (i.e. joignant les 2 points) coupe l'axe. Aprs chaque
itration, l'un des points prcdant est abandonn en faveur de la dernire estimation de la racine.

3
4

4
1

1
Mthode de la scante

Mthode de la fausse position

La seule diffrence entre ces 2 mthodes est que la scante retient la dernire estimation, alors
que la mthode de la fausse position retient l'estimation antrieure pour laquelle la valeur de la
fonction est de signe oppos la valeur de la fonction au meilleur point (le plus proche de la
racine), de manire ce que les 2 estimations encadrent toujours la racine.

Minimisation uni-dimensionnelle
Recherche sur grille
La plus lmentaire recherche est de diviser lespace de recherche, et dvaluer la fonction
chaque point de la grille. Si la division entre les points est de x, lun des points est forcment
x/2 du vrai minimum, bien que ce point puisse ne pas tre celui o la fonction prenne une valeur
minimum sur lensemble des points choisis. On peut diminuer la grille autour du minimum. Le
plus grand grief port cette mthode est son inefficacit : lalgorithme nutilise pas ce quil a
appris sur la fonction. Cette mthode devient impraticable avec des fonctions multidimensionnelles.

Recherche par section du nombre dor et Fibonacci


Pour optimiser la recherche sur grille, on veut minimiser le nombre dvaluation de la fonction en
maintenant une rduction constante des pas dun facteur t chaque tape. Une seule valuation
ne donne pas dinformation sur la localisation possible dun minimum, mais si on restreint la
recherche celle dun minimum local dans un intervalle donn, deux points suffisent.
Si f(x1) < f(x2) , alors il existe au moins un minimum
local dans lintervalle 0<x<x2. Dans cet intervalle, il y a
aussi le point x1, donc une nouvelle rduction
x1
x2
0
1
dintervalle est possible avec une seule nouvelle
valuation de la fonction, et la procdure peut continuer
ainsi avec une seule valuation par tape.
Comment peut on continuer indfiniment avec une
rduction constante des intervalles successifs, et quelle
peut tre cette rduction ?
Les distances sont indiques ci contre et imposes par la
symtrie. Quon choisisse x1 ou x2, on rduit lintervalle
de t.

1-t

1-t
x1
1

x2
2

t
t

Le nouvel intervalle aprs lvaluation de x3 doit tre


0<x<x2 et sa longueur t2. Donc t2=1-t, la solution de
cette quation est le nombre dor, t=0.616

t2
1-t
0

x3

x1

x2

t
t

Note : le nombre dor est traditionnellement dfini tel


que sur la figure ci contre, le rapport du grand segment
au tout (ici 1) est gal celui du petit segment au grand
segment. Cest dire :
/1 = (1-)/, do 2 = 1-.

Si le nombre de pas faire est fix, il est possible damliorer cette technique en utilisant une
recherche par Fibonacci (recherche optimale dans le sens minimax , cf ci dessous). Si le
nombre de pas nest pas connu par avance, la recherche par section dor est optimale.
Ces techniques sont optimales au sens minimax , cest dire quelles minimisent le nombre
maximum dvaluation faire pour obtenir une prcision donne (en thorie des jeux,le minimax,
cest la meillleure stratgie contre un opposant intelligent qui cherche vous faire perdre). Elles
sont efficaces pour les fonctions pathologiques, mais en gnral, on sattend ce que dautres
mthodes soient plus efficaces.

Approximation quadratique et extrapolation


Une approche plus prometteuse consiste tudier le comportement de la fonction et esprer que
les dviations de la fonction de ce comportement ne sont pas trop grandes. De lanalyse de la
srie de Taylor (cf au dessus), il est raisonnable de supposer que la fonction est presque
quadratique. Puisquune parabole est dtermine par 3 points, cette mthode demande
lvaluation de la fonction 3 points, x1, x2 et x3. Elle prdit ensuite le minimum x4 de la parabole
passant par ces 3 points, par la relation suivante :
(x 2 +x 3 ) f (x1 )
(x1 +x 3 ) f (x 2)
(x1 +x 2 ) f (x 3 )
(x1 x 2 )(x1 x 3 ) + (x 2 x1 )(x 2 x 3 ) + (x 3 x1 )(x 3 x 2 )
x4 =
f (x )
f (x )
2( (x1 x 2 )(x1 1 x 3 ) + (x 2 xf1(x)(x2)2 x 3 ) + (x 3 x1 )(x3 3 x 2 ) )

La fonction est value x4, ce nouveau point remplaant un des 3 autres, puis un autre point est
prdit, encore par interpolation quadratique en utilisant le nouvel ensemble de 3 points. La
mthode finit quand la fonction prdite un nouveau point est suffisamment proche de la vraie
valeur (avec une tolrance donne).
Cet algorithme se comporte gnralement bien, mais souffre parfois dinstabilits qui peuvent
tre srieuses :
1) nimporte quel pas, les 3 points peuvent dterminer une parabole avec un maximum plutt
quun minimum, et la mthode diverge alors
2) si les 3 points sont sur une ligne, lalgorithme fait un pas norme, ce qui peut conduire des
difficults numriques aussi bien qu une divergence
3) aprs chaque pas, il y a un choix faire sur lesquels 2 des 3 prcdents points retenir pour le
prochain pas. Il est gnralement plus facile et logique de retenir les 3 plus rcents points, mais
cela peut conduire aussi des instabilits de rejeter les meilleurs points.
4) mme sans les difficults prcdents, la mthode peut osciller autour dun minimum la
place de converger vers lui.
Tous les problmes peuvent tre rgls en incluant des vrifications et des gardes dans
lalgorithme, mais les remdes conduisent toujours abandonner, au moins temporairement
ltape dinterpolation quadratique. Cette mthode est souvent utilises comme dernire tape
dans des algorithmes dpendant principalement dautres mthodes, puisque les fonctions
physiques sont gnralement paraboliques la proximit dun minimum.
Quand les drives de la fonction sont disponibles, on peut la place dutiliser les 3 points pour
dterminer la parabole, utiliser 2 points et la drive premire, ou bien la valeur de la fonction et

les 2 premires drives un point. Ces variations sont en fait plus instables que la mthode
basique puisquelles utilisent moins de points.

Mthode essai-erreur
[H.H. Rosenbrock, An automatic method for finding the greatest or least value of a function , Comput. J., 3, 175 (1960).]

Un point initial est choisi, x0, et une taille de pas d est aussi choisie. La fonction est value x0
et x0+d. Le premier pas est un succs si f(x0+d)<f(x0), sinon cest un chec. Si cest un chec, d
est remplac par -d, o est un facteur de contraction (infrieur 1), et le test est rpt. Si
cest un succs, d est remplac par d, o est un facteur dexpansion(suprieur 1), et le test
est rpt. Le processus est rpt jusqu ce que la fonction ne change que de moins dune
valeur donne (prcision). Les valeurs numriques utilises pour lexpansion et la contraction
sont =3.0 et =0.4.0.
Une particularit intressante de cette mthode est quun minimum local est toujours encadr ds
quun succs est suivi dun chec. Quand cela arrive, le point du milieu des 3 derniers points est
toujours plus bas que les 2 autres, ainsi on est dans une position favorable pour essayer une
interpolation quadratique. Cest peut tre la mthode la plus efficace utiliser dans le cas dune
fonction uni-dimensionnelle gnrale.

Minimisation multi-dimensionnelle
Recherche sur grille et alatoire
Pour illustrer laccroissement de complexit pour des espaces multidimensionels, la recherche sur
grille peut fournir un exemple. En effet, pour localiser un minimum 1% de lespace dune
variable (fonction unidimensionelle), la recherche sur grille demande 100 valuations ; si la
fonction est 10-dimensionnelle, le nombre dvaluation requis est de 1020. Donc, cette mthode
est inapplicable au del de 2 dimensions.
Une rgle gnrale est que lextension des mthodes unidimensionnelles de minimisation (ou
dintgration) ne sont pas efficaces pour une fonction multidimensionnelle. Lexprience avec
lintgration suggre quune recherche de type Monte Carlo est plus efficace quune recherche
sur grille. La mthode Monte Carlo consiste choisir des points alatoirement selon une
distribution (gnralement uniforme ou normale (gausienne)).

Recherche par variation dun seul paramtre


Puisque la condition pour avoir un
minimum (avec n variables xi) est
X2
lannulation de toutes les drives
partielles f/ xi, il est naturel
dessayer dannuler chacune des
drives sparment, lune aprs
lautre. Cest la vieille mthode de
variation du paramtre unique, qui
recherche un minimum par rapport
start
X1
une variable la fois, en utilisant
lune des techniques vues dans le cas
unidimensionnel.
Bien sr, une fois un minimum trouv sur x2, il est probable quon ne sera plus au minimum en
x1, et on devra recommencer le processus, mais il est en gnral convergent. Si la fonction est une
valle troite et allonge, la mthode est lente. Un tel comportement est en gnral inacceptable
quand il y a beaucoup de dimensions. Deux amliorations ont t apportes par Hooke et Jeeves
(R. Hooke et T.A. Jeeves, Direct search solution of numerical and statistical problems , J. Assoc. Comput. Match. 8, 212
(1961)) et Rosenbrock (H.H. Rosenbrock, An automatic method for finding the greatest or least value of a function ,
Comput. J., 3, 175 (1960).).

Mthode de Rosenbrock
Cette mthode commence par des
minimisations utilisant les variations
des paramtres uniques comme ci
dessus. Quand un cycle complet a
t fait sur tous les paramtres, un
nouvel ensemble daxes orthogonaux
est dfini en prenant comme premier
axe le vecteur reliant le point de
dpart celui darrive. Cet axe
pointe dans la direction des
amliorations prcdentes et on
espre que ce sera une bonne
direction pour les futures recherches.
Dans le cas de la valle troite vue ci dessus, il devrait pointer plus ou moins dans la direction de
la valle et viter le comportement en zig zag. Le prochain cycle de minimisation par variation de
paramtre unique est accompli en utilisant des multiples des axes nouvellement dfinis comme
variables. Cette mthode se comporte gnralement bien, elle est stable et capable de suivre des
valles troites, mais lefficacit diminue quand le nombre de variables augmente, probablement
car le nouvel axe est bas sur des points trop loigns pour quil pointe le long dune hypervalle .

Mthode du simplexe (polygone):


Dans un espace n dimensions, chaque pas, n+1 points retenus , p1,...pn+1 ordonns selon f(pn+1)
f(pn)...f(p1). Ces points peuvent tre vus comme les sommets d'un polygone.
Lide est dencadrer un volume despace et de rtrcir autour dun minimum trouv (qui
ne se trouve pas forcment dans le volume initial). On essaie de projeter le plus mauvais point
du polygone de lautre cot ( rflexion ) du plan que constitue pour lui les n autres points,
et ventuellement dappliquer une expansion de ce ct. Ces rflexions sont faites de manire
essayer de conserver le volume du simplexe (i.e. de maintenir sa dgnrescence). On peut aussi
avoir des contractions du volume le long de laxe du plus mauvais point, ou bien mme des
contractions selon toutes les dimensions vers le point le plus bas (le meilleur).
Donc, chaque itration, on produit un nouveau polygone en gnrant un nouveau point pour
remplacer le point le plus "mauvais" (note : on cherche minimiser ici). On calcule le centrode c
des n meilleurs points sur les n+1 points, dont les coordonnes ci sont :
ci =

1 n
pj
n j=1 i

On prend pr = c + (c-pn+1) o est le coefficient de rflexion, et on considre f(pr):

rflexion
- si f(p1) < f(pr) < f(pn), c'est dire que
pr est un point situ parmi les autres, on
remplace pn+1 (le plus "mauvais") par pr

expansion
- si f(pr)< f(p1), pr est le meilleur point,
on considre que la direction est une
bonne direction et on essaie d'allonger
le polygone dans cette direction en
tirant, pe = c + (pr - c) o est le
coefficient d'expansion, si f(pe) < f(pr),
on garde pe qui remplace pn+1, sinon
pn+1 est remplac par pr.
contraction
- si f(pr) > f(pn), on considre que le
polygone est trop large et devrait tre
contract : si f(pr)f(pn+1), pc= c +
(pn+1-c) ou si f(pr)<f(pn+1), pc= c +
(pr-c), et si f(pc)<min(f(pr),f(pn+1)), pc
remplace pn+1.

remplace pn+1.
ou

Mthodes de gradients - plus grande pente ( steepest descent )


Quand on connat les premires drives, il est naturel de suivre la direction inverse du gradient
pour chercher un minimum, puisque cest dans cette direction que la fonction dcrot le plus
(cette technique a t utilise par Cauchy au 19me sicle).
La mthode de plus grande pente consiste en
une srie de minimisations
unidimensionnelles, chacune suivant la
direction de la plus grande pente au point o la
minimisation commence. Bien sr, la direction
du gradient nest pas constante, donc on
sattend de multiples itrations pour trouver
le minimum, mais on montre que la mthode
est convergente pour une fonction quadratique.

X2

start

X1

Note : la direction de plus grande pente est videmment une combinaison des variables. On
remarque une proprit des directions successives de recherche : si chaque minimisation par
recherche linaire est exacte, les directions successives sont orthogonales, ce qui nest pas
optimal pour une recherche efficace.
Dans cette mthode, on part de x0 (vecteur initial).
on calcule le vecteur gradient gi =

df (xi )
au point xi,
dx

on effectue la recherche linaire du scalaire t rendant f minimum dans la direction -gi


("linear search"), soit : xi+1 = xi-tigi
et on ritre en recalculant le gradient en ce point. On remarque que la nouvelle
direction de descente est perpendiculaire la prcdente.

On peut arrter les itrations arbitrairement ds que l'on atteint une valeur du gradient
suffisamment petite ("valle" de la fonction), que le nombre de cycles est jug assez grand, que
les paramtres varient trop faiblement ou que le temps allou pour le calcul est dpass !
Il est en fait facile de trouver des fonctions non
pathologiques o la direction vers le minimum est
perpendiculaire au gradient !

X2

start

-g
X1

Newton-Raphson
Puisquune fonction quadratique est entirement dtermine par sa valeur, ses drives premires
et ses drives secondes, elle peut tre minimise en un seul pas avec cette information. La
mthode de Newton-Raphson permet de trouver le minimum d'une fonction en l'approchant par
son dveloppement de Taylor au deuxime degr (approximation quadratique).
Ici, on value alors non seulement le gradient, mais aussi la drive seconde (ou Hessien) de la
d 2 f (x)
fonction, H( x) =
, par rapport aux coordonnes. Si on part de x0, on a (dveloppement de
dx 2
Taylor) :
1
f (x) = f (x0) + gT (x x0) + (x x0)T H(x x0) + ...
2
f
f
Avec g = f (g est le gradient de coordonnes
), [ H ] ij =
(H est le Hessien) (avec le
x0 i
x0 i x0 j
gradient et le Hessien calcul au point x0). La fonction scrit alors :

Si la fonction est effectivement quadratique, on a :


1

x0)
f (x) = f (x0) + gT (x x0) + (x x0)T H(x
2
et la drive:
f
(x) = g + H(x x0) = f (x) est nulle au minimum, xmin, donc
x
f '(x min ) = g + H(x min x0) = 0 x min x0 = H _1g x min = x0 H _1g
donc
-H-1g est le pas x faire partir de x0 pour arriver au minimum en un coup.
Note : H-1 est aussi appel la matrice des covariances.
Dans le cas gnral d'une fonction non quadratique, on peut ritrer le calcul suivant
- calcul du gradient gi et du Hessien H(xi) au point xi,
- valuation du pas faire xi = -H(xi)-1 gi,

- nouveau point xi+1 = xi + xi,


- itration jusqu'au point d'arrt (voir plus haut).
Cette mthode est lquivalent multidimensionnel de la mthode dinterpolation quadratique vue
au dessus, et elle est sujette aux mmes difficults. Mais voici ses points intressants :
1) le pas nest plus arbitraire, il est fix prcisment par la mthode
2) les directions ne sont plus ncessairement selon le vecteur gradient mais prennent en compte
les corrlations des paramtres (valles troites ou crtes) via les termes mixtes de la drive
seconde.
Cette mthode est thoriquement plus rapide que celle du gradient mais le calcul du Hessien
demande une capacit de stockage de N(N-1)/2 termes et le temps ncessaire la rsolution du
systme d'quation (inversion de H) varie en N3 (N : nombre de variables minimiser).
En pratique, la mthode se montre instable (pour les mmes raisons que la mthode
dinterpolation quadratique unidimensionnelle). Elle diverge notamment si la matrice H nest pas
dfinie-positive (voir ci dessous le paragraphe Formes quadratiques dfinies positives ). Dans
sa forme prsente ici, elle ne peut tre applique que lorsque le minimum est proche ou quand
on sait que la fonction est quadratique positive (pour lexemple dune telle fonction, lexemple
des moindres carrs, plus loin).
Mais cest une mthode puissante, et il est important de ltudier en dtail puisque tous les
algorithmes puissants sont bass sur des pas quasi-Newton (cf ci dessous).
On peut l'amliorer en chargeant la diagonale du Hessien si celui ci n'est pas dfini positif ou en
effectuant une recherche linaire (algorithme de Marquardt). Comme dans le cas des mthodes de
plus grande pente, on peut utiliser x non comme "pas" faire, mais comme direction de
recherche (mthodes dites de quasi-Newton) [Adby & Dempster, 1974] soit :
xi = -ti H(xi)-1 gi.

Formes quadratiques dfinies positives

Une forme quadratique gnrale est


1
F(x) = a + gx + Hx 2
2
o g = f/x x=0 (g est le gradient), et H=2F/x2 x = 0 aussi (H est la drive seconde ou le
Hessien). Cette fonction a un minimum si et seulement si H0 (si H=0, le minimum est linfini,
car la drive seconde tant nulle, la fonction est plate Si H est ngatif, alors on se trouve sur
une parabole de courbure ngative, donc sans minimum).
Le minimum, si il existe est x = -g/H.
En effet, au minimum, la drive de F est nulle, donc
g
F'(x) = g + Hx = 0 x =
H

Quand on utilise une forme quadratique pour approximer une fonction gnrale non linaire, il est
g
donc logique de prendre un pas de x = pour trouver une approximation du minimum.
H
Mais cette approximation nest valable que si
H>0, sinon on saute un maximum ou linfini.
f(x)
H<0 H>0
Si H<0, un remde est deprendre un pas de x= g, cest dire de mettre arbitrairement H 1, de
manire ce que le pas soit au moins dans la
bonne direction (celui de linverse du gradient o
-g/H
crot la fonction), mme si ce pas a maintenant
-g
une longueur arbitraire. Lexamen de la figure ci
contre montre que cest la seule chose que lon
puisse faire sans information supplmentaire.
x
X
0

Ces arguments stendent une fonction multidimensionnelle o le gradient g est un vecteur (de
composantes F/xi) et H devient la matrice des drives secondes (dont les lments sont les
2F/xixj). Dans ce cas, le pas de Newton devient x=-H-1g et na de sens que si H nest dfinier
r
1r r
positive, car cest cette condition que la forme quadratique F( x ) = a + gT x + x T Hx possde un
2
minimum. Il ny a malheureusement pas de moyen simple de dire si une matrice est dfiniepositive en inspectant ses composants, mais on peut donner quelques unes des proprits de telles
matrices.

Deux conditions ncessaires (mais pas suffisantes) pour quune matrice carre et symtrique soit
dfinie-positive sont :
1) les lments diagonaux sont positifs (cela suffit pour une matrice 1x1)
2) les lments hors diagonaux doivent obir H2ij < HiiHjj
(les proprits 1 et 2 sont suffisantes pour une matrice 2x2)
Bien que 1 et 2 soient facile tester, elles ne sont en gnral pas suffisantes. Voil quelques
conditions ncessaires et suffisantes :
3) toutes les valeurs propres sont positives (calcul en gnral difficile et approximatif)
4) Les dterminants de toutes les sous matrices
gauche et en haut sont positifs. Cest
probablement la mthode la plus simple.
.
5) Le scalaire e He est positif pour tous les vecteurs e. Cest la dfinition usuelle pour une
matrice dfinie-positive, et cela explique pourquoi une matrice dfinie-positive donne une forme
quadratique avec un minimum : la fonction crot dans toutes les directions.
6) Linverse
H-1 est dfinie-positive.

Supposons maintenant quune matrice H calcule lors dune itration ne soit pas dfinie-positive.
Par analogie avec le cas unidimensionnel, on peut prendre simplement H=I, la matrice unitaire, et
T

le pas de Newton devient un pas de plus grande pente dune longueur arbitraire, ce qui nest
pas une mauvaise ide (et cest souvent fait). Mais on peut faire mieux en essayant de crer une
matrice dfinie positive qui est aussi proche que possible de H. Ce quil faut faire dpend de ce
qui ne va pas avec H.
1) si les lments diagonaux de H sont positifs, on peut simplement mettre les lments hors
diagonaux 0. La matrice rsultante sera meilleur que la matrice unitaire, puisquau moins elle
donnera un pas de longueur non arbitraire.
2) si le problme est seulement que un ou plusieurs lments hors diagonaux ne vrifient pas H2ij
< HiiHjj, on peut ne mettre zro que ces lments l.
3) On peut utiliser la matrice (H+I)-1 au lieu de H-1, avec plus grand que la plus grande
valeur propre de H. Cela demande beaucoup de calcul et nest pas trs commode, mais cest
intressant puisque cela revient prendre un pas intermdiaire entre un pas de Newton et un pas
de plus grande pente (pour des grandes valeurs de le pas devient court et en direction du
gradient).
4) si un ou plusieurs lments sont ngatifs, la non positivit qui en dcoule peut tre prise en
tant quavantage puisquelle indique une direction (ou des directions) dans lesquelles linverse du
gradient est croissant . Cela suggre une direction spcialement fructueuse pour une variation
unidimensionnelle, qui ne mnera pas seulement une dcroissance significative de la fonction
mais aussi devrait conduire rapidement une rgion o le Hessien serait dfini-positif.
Ces remarques mnent aux mthodes de quasi-Newton. Linconvnient principal de ces mthodes
est lvaluation rpte et linversion de la matrice des drives secondes (voir les considrations
au dessus sur le stockage et le temps de calcul).

Mthode des directions conjugues


Deux directions di et dj sont dit conjugues par rapport une matrice dfinie-positive H si
diTHdj = 0. Si H tait la matrice unitaire, les vecteurs conjugus seraient orthogonaux. On peut
voir la conjugaison comme une gnralisation de lorthogonalit. Un ensemble de n vecteurs
conjugus dcrit un espace n-dimensionnel, et chaque point de lespace peut tre exprim comme
une combinaison linaire des n vecteurs conjugus. Ces directions conjugues sont par
construction orthogonales l'ensemble des diffrences des gradients aux itrations successives.
Bien que la matrice H ne dfinisse pas un ensemble unique de vecteurs conjugus, un tel
ensemble peut toujours tre construit par une procdure similaire la mthode
dorthogonalisation de Gram-Schmidt. Si on part par exemple dun vecteur d1, alors le vecteur d2
d T HHd1
d1 est un vecteur conjugu de d1 puisque le produit d1T Hd2
construit tel que d2 = Hd1 1 T
d1 Hd1
sannule comme on peut le vrifier :

d1T HHd1
d1T HHd1 T
T
d Hd2 = d H(Hd1 T
d1 ) = d1 HHd1 T
d1 Hd1 = 0
d1 Hd1
d1 Hd1

T
1

T
1

Le processus peut tre continu de la mme manire pour construire un vecteur d3 qui sera
conjugu avec d1 et d2.

Un thorme de Fletcher et Reeves montre quune squence de minimisation linaire dans


chacune des n directions conjugues minimisera une fonction quadratique gnrale de n
variables. Cela peut tre vu assez facilement. Soit la fonction quadratique suivante :
1
f (x) = f (0) + gT x + x T Hx
2
et les n directions xi sont conjugue par rapport H :
diT Hd j = 0

Les vecteurs x et g peuvent tre exprims comme des combinaisons linaires :

x = y i di et g = c i di
i

donc la forme quadratique gnrale devient :


1
f (x) = f (0) + ( c i diT )( y j d j ) + ( y i diT )H( y j d j )
2 i

i
j
j
Si le dernier terme est regroup comme une double somme, les termes avec i j sannulent
cause de la congugaison, donc lexpression peut tre simplifie comme suit :
1
f (x) = f (0) + c i diT d j y j + y 2j d Tj Hd j = f (0) + (b j y j + b' j y 2j )
2 j

i
j
j
o

b j = c i diT d j et b' j = d Tj Hd j sont des constantes. En exprimant la forme quadratique en terme du


i

vecteur y plutt que x, on la spar en une somme de fonctions quadratiques indpendantes. Une
minimisation selon yi (une minimisation linaire dans la direction di) sera indpendante des

minimisations
le long des directions conjugues, ce qui montre la validit du thorme.
Ce thorme nous montre ce qui clochait avec la mthode de variation dun seul paramtre :
on doit utiliser des directions conjugues plutt quorthogonales.
Cependant, vu quil faut valuer le Hessien, en pratique, cela ne nous aide pas vu quon pourrait
utiliser la mthode de Newton, et on naurait pas besoin dutiliser n minimisation linaire.
Lutilit des directions conjugues vient du fait quil y a des moyens de dterminer ces directions
implicitement sans valuer le Hessien H. Bien sr, quand toutes les n directions conjugues sont
dtermines, par nimporte quelle mthode, une information quivalente au Hessien est calcule.
Cependant, en mme temps, une minimisation importante peut dj avoir t effectue.

If x0 et x1 sont des points minimum dans 2 sousespaces parallles, alors la direction x1- x0 est
conjugue nimporte quel vecteur des 2 sousespaces. On le voit dans la figure ci contre.
Puisque x0 est un minimum dans la direction d1, le
gradient de f x0 doit tre orthogonal d1 :
d1T (g + Hx 0 ) = 0 o g est le gradient x=0. De
manire similaire, x1 : d1T (g + Hx1 ) = 0 . En
soustrayant les 2 quations, le premiers termes
sannulent et on a : d1T H(x1 x 0 ) = 0 , ce qui
montre que x1-x0 est conjugue d1.

X2

x1

x0

d1
X1

Malheureusement, tendre cet algorithme 3 dimensions demande trois minimisations


supplmentaires
de manire ce que la 3me direction soit conjugue aux deux premires, et donc

la convergence pour une forme gnrale quadratique en n variables est obtenue seulement aprs n
itrations impliquant en tout n(n+1)/2 minimisations linaires. Puisquil sagit justement du
nombre dlments indpendants du Hessien, il semble quon ferait mieux, pour les fonctions
quadratiques, de calculer cette matrice H directement et dviter ces recherches linaires. Dun
autre ct, pour les fonctions non-quadratiques, la mthode des directions conjugues devrait tre
beaucoup plus stable puisquelle procde en recherches linaires dans des directions
indpendantes et donc garantit une convergence en un temps fini une fois quune rgion
quadratique a t trouve.
Un dsavantage de lalgorithme est que pour chaque itration, n minimisations sont faites dans la
direction d1 alors quune seule est faite dans la direction dn (ceci est largement vit dans une
variante de Powell [Powell M.J.D, Comput. J., 7, 149 (1964)]).

Gradients conjugus
Quand les premires drives sont calcules, une mthode plus lgante peut tre utilise, celle
des gradients conjugus . Dans les mthodes de gradients conjugus [Hestenes & Stiefel, 1952]
(mthode de Fletcher-Reeves [Fletcher & Reeves, 1964]), les directions de recherche successives sont
mutuellement conjugues par rapport au Hessien. Deux directions xi et xj sont dites
conjugues par rapport une matrice H dfinie positive si xiT.H(x).xj = 0.
Supposons que la fonction et son gradient soient valus 2 points, x0 et x1 , donnant les
diffrences suivantes : x = x1 - x0 et g = g1 g0.
Si la fonction tait quadratique, avec un Hessien H, on aurait xmin= x0-g0/H = x1-g1/H (voir plus
haut), donc x0- x1 = g0/H-g1/H= (g0-g1)/H et par suite g = Hx.
Nimporte quel vecteur d1 orthogonal g serait alors conjugu x :
d1T g = d1THx = 0 .
Ceci suggre immdiatement une mthode pour obtenir les directions conjugues sans connatre
H, en se basant sur le changement du gradient le long dune direction prcdente.

Dans la mthode des gradients conjugus, les minimisations unidimensionnelles successives sont
accomplies le long des directions conjugues, chaque direction tant utilise une seule fois par
itration. La premire direction est d0=-g0, la plus grande pente x0. Si le minimum selon cette
direction est x1 o le gradient est g1, alors la prochaine direction de recherche d1, quon veut
conjugue d0, doit tre une combinaison linaire des seuls vecteurs que nous ayons sous la
main, cest dire :
d1=-g1+bd0 (1)
La condition de conjugaison est :
d1THd0=d1TH(x1- x0)=0
qui en remplaant d1 selon (1) donne :
(-g1T+bd0T)H(x1- x0)= 0
et en remplaant dans le second terme H(x0- x1) par (g1 - g0) donne :
(-g1T+bd0T)(g1 - g0) = 0
dou :
-g1Tgi+g1Tg0+bd0Tg1 -bd0Tg0=0 et vu que d0 = -g0:
-g1Tgi+g1Tg0-bg0Tg1 +bg0Tg0=0
et puisque x1 est un minimum dans la direction d0 = -g0 , la direction g0 est orthogonale au
gradient en x1, et donc g1Tg0= g0Tg1=0, donc
(-g1Tg1)+ b(g0Tg0) = 0
On a donc b =

g1T g1
g1T g1
d
=
g
+
d0
et
la
nouvelle
direction
conjugue
est
1
1
gT0 g0
gT0 g0

Ce processus peut tre itr pour gnrer les n directions, chacune conjugue toutes les autres.
Donc la mme formule simple convient pour tous les directions conjugues successives :
T
= g + gi+1gi+1 x

x
i+1
i+1
i
gTi gi
Les directions successives sont donc obtenues en conservant seulement les gradients pour deux
itrations d'o une conomie de stockage par rapport au Hessien.

Ces mthodes convergent mieux que les mthodes de plus grande pente et ne ncessitent pas le
calcul du Hessien
(note: le minimiseur MINM d'AMBER, programme de minimisation dnergie molculaire est un
minimiseur gradients conjugus).

Minimiseurs mtrique variable (VMM)


Ces mthodes tirent leurs noms du fait qu'on peut considrer la direction -H-1g (NewtonRaphson) comme incorporant une correction du second ordre du systme de coordonnes. En
effet, en multipliant -g par H-1 (ou V, matrice de covariance), on corrige la mtrique de l'espace
N dimension (x est de dimension N) de manire ce que le gradient ngatif -g soit converti en
l'incrment x. Ainsi, le terme " mtrique variable" qualifie les mthodes qui utilisent un
incrment de la forme :

xi = - ti Vi g
et mettent jour la transformation du tenseur de "correction de la mtrique" Vi chaque itration.
Vi doit converger vers H-1 (inverse du Hessien). Ces mthodes sont donc des mthodes quasiNewton.

Thorie
Par analogie avec les mthodes de gomtrie diffrentielle et de la relativit gnrale, il est
pratique de considrer que les proprits de la fonction f(x) sont en fait des proprits de lespace
des variables x. On a fait un usage rudimentaire de cette ide quand on a gnralis les
coordonnes orthogonales en un nouveau systme dfini par des axes pointant dans des directions
conjugues. On veut maintenant aller plus loin et tre capable dexprimer les proprits de la
fonction f gomtriquement comme des proprits de lespace non-euclidien de ses variables x.
Linvariant fondamental dans un espace non euclidien est llment de distance au carr :
ds2=dxTAdx
o dx est une coordonne diffrentielle de dplacement et A est la matrice tenseur de covariance
qui dtermine toutes les proprits de lespace considr. Quand A est la matrice unitaire, la
formule pour ds2 exprime juste le thorme de Pythagore pour un espace Euclidien ndimensionnel. Quand les lments hors diagonaux ne sont pas nuls et que les lments peuvent
varier comme des fonctions de x, un espace non euclidien gnralis est gnr.
Il est facile de vrifier que, sous des transformations des coordonnes, la matrice des drives
secondes H (le Hessien) se comporte comme un tenseur de covariance, et nous lidentifions
comme le tenseur mtrique de notre espace. Linverse V=H-1 est un tenseur contravariant et
devient le tenseur contravariant (pour une discussion des tenseurs covariant et contravariant, voir
Landau et Lifdhitz, The classical theory of fields , Addison-Wesley, 1951). Ceci nous permet
immdiatement de construire deux scalaires (invariants sous les transformations de
coordonnes) :
1) ds2=dxTHdx est le carr de la distance gnralise entre le point x et le point x+dx. Quand f
est une fonction 2 qui est minimise pour dterminer les meilleurs paramtres x, alors la
signification physique de la distance gnralise ds est juste le nombre d cart type sparant
x+dx de x. Ainsi, lutilisation du tenseur mtrique H permet dtalonner la distance dx de manire
ce quelle devienne une quantit physique (ou statistique) pertinente et invariante au lieu dtre
exprime en unit arbitraire (ou dun mlange dunits arbitraires !).
2) =gTVg est 2 fois la diffrence entre la valeur de la fonction au point o V et le gradient g
sont calculs et le minimum de la forme quadratique de Hessien H=V-1. Ainsi /2 est la distance
(verticale) attendue au minimum si f tait quadratique. Ceci nous fournit un critre de
convergence important et indpendant de lchelle pour nimporte quelle mthode donnant une
approximation de V et g. quand la fonction f est quadratique, H est partout constant et, dans le
sens soulign ci dessus, cest quivalent travailler dans un espace mtrique constante. Pour les
fonctions relles non linraires, on sattend ce que les termes dordre plus levs soient petits
mais non ngligeables, donc on peut penser travailler dans un espace avec un tenseur mtrique

variant lentement. Les mthodes bases sur cette approche sont connues sous le nom de mthode
mtrique variable. Elles diffrent de la mthode Newton-Raphson par le fait que H nest pas revalu chaque itration, mais quune bonne approximation de H est celle des itrations
prcdentes. Cette correction est connue sous le nom de formule de mise jour de la matrice
qui diffre en gnral dune mthode lautre.
Les mthodes mtrique variables procdent gnralement suivant les tapes suivantes :
1) un point initial, x0, est donn. Le gradient g0 ce point est calcul et une approximation de H1
, disons V0 est construite. Le V0 de dpart ne peut tre que la matrice unitaire, ou bien linverse
de la vraie matrice des drives secondes.
2) un pas est fait jusqu x1= x0 - V0g0 , qui sera le minimum si f est quadratique et si V0 est la
vraie matrice de covariance. Puisque x1 nest pas le minimum en gnral, il est usuel de faire une
recherche linaire le long de cette direction, pour trouver le qui minimise f(x0- Vg0). Le
nouveau point est donc x1 et le gradient calcul x1 est g1.
3) la matrice V est corrige en utilisant une formule de mise jour de la forme :
V1= V0+m(V0, x1, x0, g0, g1)
puis g0 est remplac par g1, x0 par x1 et V0 par V1 et les tapes 2 et 3 sont rptes jusqu ce
quun critre de convergence soit satisfait.
Les diffrentes mthodes diffrent principalement dans le choix de la fonction de mise jour m
(voir ci aprs), et de limportance de la ncessit des minimisations linaires. Des variantes moins
importantes concernent lapproximation de dpart, V0, et les grades fous contre des pas irralistes
et contre la non positivit comme pour les techniques bases sur Newton.
On a donc ici non le Hessien (lourd calculer) mais une estimation de celui-ci (en fait de son
inverse H-1) continment tenue jour partir de l'information tire des variations successives g
du gradient g. La matrice V0 de dpart est en gnral la matrice identit, donc le premier
incrment est fait dans la direction de plus grande pente.

Mthode de Davidon-Fletcher-Powell
La premire, et la plus utilise, des mthodes mtriques variables est celle dite de DavidonFletcher-Powell, dveloppe en 1959 par Davidon puis publie et simplifie par Fletcher et
Powell [Fletcher & Powell, 1963]. La formule :

V1 = V0 +

T V0 T V0
T
T
V0

o les changements en position et en gradient du dernier pas sont :


= x1 x 0 et = g1 g0

et V0 est la prcdente estimation de la matrice de covariance. Cette formule est appele de rang 2
puisque la correction V1- V0 est une matrice de rang 2 dans lespace de et V0, comme on peut le
voiren regardant la formule.

Une condition fondamentale dune formule de mise jour est que la nouvelle matrice doit
satisfaire la relation : V1= , puisque =H pour une forme quadratique de Hessien H. On voit
que la formule de Davidon satisfait cette condition :

V1 = (V0 +

T V0 T V0
T V0 T V0

=
V

+
T
= V0 + V0 =
0
T
T V0
T
V0

Une caractristique malheureuse de lalgorithme de Davidon est le besoin de faire chaque


itration une minimisation linaire dans la direction donn par un pas de Newton, -Vg. Cette
recherche linaire est cependant ncessaire pour assurer une convergence pour des fonctions
gnrales. Fletcher et Powell montrent que si lapproximation de dpart est dfinie positive, alors
V restera dfinie positive aprs toutes les mises jour, mais ils utilisent le fait que chaque
itration est une minimisation linaire, cest dire que :
g1T V0 g0 = 0
On peut montrer que cette mthode est convergente quadratiquement, au plus n itrations (n
recherches linaires et n calculs de gradient) tant requises pour une forme quadratique ndimensionnelle.

Formule de rang 1 :
Dans un effort pour viter la recherche linaire requise par la mthode de Davidon, plusieurs
chercheurs ont dvelopp indpendamment une formule intressante de rang 1. Davidon a t le
premier publier un algorithme bas sur la formule et Powell a rcapitul les proprits de cette
formule et des algorithmes qui sappuient dessus.
La formule de mise jour de rang 1 est :

( V0 )( V0 )T
T ( V0 )

V1 = V0 +

On peut montrer que cest la seule formule de rang 2 (ou moins) pour laquelle on a non
seulement V1= mais aussi V1 =

O et sont les changements de pas et de gradient nimporte quelle des itrations


prcdentes. Ceci est connu sous le nom de proprit hrditaire , puisquon peut dire que V1
hrite de la proprit fondamentale V1= par rapport toutes les itrations prcdentes. La
proprit hrditaire assure quaprs n itrations, V1 sera la vraie matrice de covariance si f est
quadratique, quelque soient les pas qui ont t pris, et donc que, si des pas de Newton sont
accomplis, la convergence pour une fonction quadratique est assure aprs n itrations, sans
besoin de recherche linaire.
De plus, la formule de rang 1 est symtrique, dans le sens o lexpression pour V1-1 en termes de
V0-1 est la mme que pour V1 en termes de V0, tant donn que et sont intervertis. La
signification de cette proprit de symtrie sera discute dans la prochaine section.

Mais, vu que rien nest parfait, llgance et la beaut mathmatique de la formule de rang 1
cache un grand nombre de difficults numriques et pratiques qui peuvent la rendre
particulirement instable quand on lapplique une fonction gnrale. En particulier, si le vecteur

devient orthogonal au vecteur (-V0), le dnominateur tend vers zro dans la formule de mise
jour, et une correction sans limite est possible. Puisque ces vecteurs peuvent tre orthogonaux,
mme pour une fonction quadratique, le problme dinstabilit numrique est srieux.
De plus, les matrices V1 ne convergent pas vraiment vers la matrice de covariance dans le sens
usuel du terme convergence. Bien quil soit vrai que V1 sera gal la vraie matrice de covariance
au n-ime pas pour une fonction quadratique (nonobstant les difficults numriques), les matrices
intermdiaires V peuvent varier beaucoup de pas en pas, de telle sorte qu une itration
particulire V1 pourra tre une particulirement mauvaise approximation. Ceci est dangereux si la
fonction nest pas quadratique, puisque les s grandes corrections dans les dernires itrations ne
compenseront gnralement pas les fluctuations des premiers pas. De mme, il nest pas garanti
que les matrices intermdiaires resteront dfinies positives, donc ne sera pas garanti non plus une
rduction de f chaque pas, mme pour une fonction quadratique.
Toutes ces difficults peuvent videmment tre corriges en programmant suffisamment de
garde-fous dans lalgorithme, mais cela ne peut tre fait quau dtriment de lefficacit et
quelquefois en abandonnant temporairement la formule de mise jour elle mme, ce qui perd de
lintrt. Des approches diffrentes sont possibles selon quon considre comme important de
maintenir la positivit comme dans lalgorithme de Davidon [Davidon, Comput. J. 10,406(1968)]
ou de de ne pas abandonner la formule exacte de rang 1 comme dans la mthode de Powell [Powell,
M.J.D., Rank one methods for unconstrained optimization in Integer and non-linear programming , J. Abadie Editor,
Amsterdam,1970].

Approche unifie de Fletcher pour les mthodes mtrique variable :


Lexistence de deux formules de mise jour diffrentes, avec des proprits trs diffrentes ont
gnr un grand intrt dans les annes 1967-1971, puisque cela montrait que les VMM taient
prometteuses et quelles avaient laiss beaucoup de questions sans rponse, comme :
1) Comment se peut il que les formules de rang 1 et de rang 2 ont de telles diffrences de
proprits ? Quelle est la relation entre les deux ?
2) Y a t il un moyen de combiner les meilleures proprits des 2 formules ?
3) Y a til dautres bonnes formules ? Est il possible de dfinir une classe de formules
admissibles ?
Un article de Fletcher prsente une approche unifie [Fletcher R., Comput. J., 13, 317 (1970)].
Rappelons nous que lquation de rang 1 est symtrique, mais ainsi que nous allons le voir, la
formule de rang 2 ne lest pas. Lasymtrie suggre un moyen de construire un troisime formule
en prenant limage miroir de la formule de rang 2. Lide de base est que la nouvelle formule
devrait satisfaire la relation fondamentale : V1= et ainsi son inverse devrait vrifier = V1-1
On peut videmment crire une formule pour V1-1 qui correspond la formule de rang 2 pour V1 :

V11 = (I

T 1
T
T
)V
(I

)
+
0
T
T T

Cette matrice V1-1 peut tre maintenant vue comme une application de vers puisque = V1-1.
Si nous intervertissons et dans la formule, cela donnera une application de vers , et ainsi
cela produira une nouvelle formule o V1= . La nouvelle formule duale est simplement :

T
T
T
V1 = (I T )V0 (I T ) + T

Si nous essayons ce truc avec la formule de rang 1, on aura la mme formule de rang 1,
puisquelle est symtrique dans ce sens, cest dire duale delle mme. Mais avec la formule de
rang 2, le processus dinversion et dinterversion mne une nouvelle formule, galement de
rang 2, qui est aussi une formule valide de mise jour, au sens o elle donne lieu un algorithme
de VMM de convergence quadratique.
Allons plus loin et considrons la classe des formules qui incluent la fois des formules de rang 1
et de rang 2 comme cas spciaux. Introduisons la notation V1=T(V0) pour la formule de rang 2, et
V1=D(V0) pour la formule duale, et considrons la classes de expressions de mise jour : V =(1)T+ (D) o est un paramtre qui dtermine la formule exacte (Broyen [Broyden C.G., Math.
Comput., 21, 368 (1967)], tout en utilisant une notation diffrente, a aussi considr la mme classe de
formules).
Il vient que la formule de rang 1 est aussi dans cette classe avec :

(rang1) =

T
T T V0

Ayant maintenant construit une vaste classe de formule de mise jour, il serait intressant de
considrer leurs proprits comme une fonction du paramtre gnrateur . Peut tre la plus
importante proprit, et la seule quon considrera ici, est celle de la convergence monotone de V
vers la vraie matrice de covariance pour une fonction quadratique ( Proprit 1 dans larticle
de Fletcher). Lutilisation dune formule de mise jour avec cette proprit garanti une
amlioration dans lapproximation V chaque itration (pour une fonction quadratique).
Nimporte quelle formule V avec dans lintervalle [0,1] possde la proprit de convergence
monotone. Une telle formule est dite appartenir la classe convexe des formules. Pour nimporte
quel V avec en dehors de lintervalle [0,1], il existe une fonction quadratique pour laquelle V
diverge de la vraie matrice de covariance.

De ce que nous avons dj vu sur la formule de rang 1, il nest pas surprenant de trouver quelle
nappartient pas la classe convexe. Puisque T > 0 pour nimporte quel pas qui est une
amlioration, et puisque T V0 > 0 si V0 est dfinie positive, on voit immdiatement de
linspection de lquation pour (rang1) quil doit tre ou infrieur 0 ou suprieur 1.
Ces considrations ont amen Fletcher
proposer un nouvel algorithme qui est probablement le
plus lgant et
le plus puissant des algorithmes VMM. A la base, il utilise la formule gnrale V
avec la valeur de choisie suivant le schma suivant : s
Si (rang1<0, mettre =0, ce qui correspond la formule de rang 2 usuelle.
Si (rang1>0, mettre =1, ce qui correspond la formule duale.

Ainsi, chacun utilise toujours une formule de la classe convexe, et choisit celle qui est la plus
proche de la formule de rang 1. Il semble que la recherche linaire peut alors tre limine et
simplement remplace par un pas de Newton, moins que la fonction soit hautement non
quadratique. Cette dernire condition peut facilement tre dtecte en comparant lamlioration
relle avec celle attendue chaque itration.

Recherche linaire approche :


A ce niveau, il tait sous entendu que la recherche linaire du ti devait tre exacte. En fait, un
grand progrs en vitesse d'excution a t fait quand on s'est aperu qu'une recherche linaire
approximative suffisait. Les formules doivent tre lgrement modifies. Le point xt :
xt = xi + t xi
est accept pour la valeur t si :
f(xt) < f(xi) + r1 t gi xi
gtxi > r2 gi xi
Les paramtres r1 et r2 peuvent tre ajusts. r1 = 0,999 et r2 = 0,00001 semblent tre un bon
choix.

Techniques spcialises
Minimisation chi-carr
Une des applications les plus communes en sciences est lajustement par moindres carrs, o la
fonction minimiser est la somme des carrs des dviations entre valeurs mesures et prdites
(selon un modle) :
K
K
Y T (x)
F(x) = f k2 (x) = ( k k ) 2
k=1
k=1
k

o Yk et k sont les valeurs mesures et les erreurs, et Tk(x) sont les valeurs prdites par le modle.
Minimiser f mne la meilleure estimation des n paramtres x, base sur les K mesures Y avec
des erreurs alatoires , o K doit tre plus grand ou gal n, et est gnralement beaucoup plus
grand que n.
Considrons la matrice des drives secondes pour F(x), exprime en termes des fk(x)
individuels :

2F

f
f f
2 fk
=
f k2 =
2 f k k = 2 k k +2 f k

x ix j x i x j k
x i k
x j
x i x j
x ix j
k

Dans lexpression de droite, il est usuel de faire lapproximation que la seconde somme,
impliquant des drives secondes, est petite compare avec le premier terme impliquant des
produits de drives premires. Cest appel la linarisation [note : cest le modle T(x) qui est
linaris, pas la fonction F(x)]. Dans le cas important des moindres carrs linaires, la deuxime

somme est exactement zro, et donc F(x) est quadratique, et le problme se rsout linversion
2F
de la matrice
(cet dire prendre le pas de Newton). Dans le cas le plus gnral des
x ix j
moindres carrs non linaires, la linarisation seffectue en prenant :

2F
f f
2 k k
x ix j
x i x j
k

Cette formule a lavantage dtre facile calculer et, de plus, la matrice est toujours dfinie
positive (sous des conditions faibles comme lexistence des drives, et pourvu quelle ne soit pas
singulire). En fait, dans beaucoup de cas, lutilisation de cette approximation pour calculer les
pas de Newton est plus efficace que lutilisation de la matrice exacte des drives secondes
cause de la positivit. Bien sr, il faut se souvenir que la matrice de covariance obtenue en
inversant cette matrice ne converge pas sur la vraie matrice de covariance mme si la
minimisation base sur cette matrice peut converger sur le vrai minimum.

Likelihood maximisation
Une importante alternative la mthode des moindres carrs dans lajustement de donnes une
fonction thorique est la mthode du maximum likelihood (maximum de vraisemblance). Dans ce
cas, la fonction minimiser est de la forme :

F(x) = ln f k (x)
k

donc une somme de logarithmes. Ici encore, une approximation de la matrice des drives
secondes peut tre trouves qui implique seulement les produits des premires drives :

2F

1 f k
1 f k f k
1 2 fk
=
ln
f
=

k x f x f 2 x x f x x
x ix j
x i x j k
i k
k
j
k
i
j
k
i
j
k
k
Comme pour les moindres carrs, on peut ngliger la seconde somme (des drives secondes).
Dans le cas dune fonction de vraisemblance, les drives secondes de f ne sont jamais
exactement zro sur un intervalle fini (un maximum de vraisemblance exactement linaire
nexiste pas, essentiellement parce que la fonction de vraisemblance doit tre normalise, de
manire ce que son intgrale sur lespace des mesures soit indpendante des paramtres x).
Cependant lapproximation :

2F
1 f f
2 k k
x ix j
k k x i x j
a les mmes avantages que dans le cas des moindres carrs non linaires, notamment la vitesse de
calcul et la positivit assure.

Minima locaux et globaux :


Le problme des minima multiples :
Toutes les mthodes prsentes ci dessus ont pour but de trouver un minimum local, sans
soccuper de savoir si dautres minima locaux existent, ou si le minimum trouv est le minimum
global de la fonction. Si la fonction a plusieurs minima, il ny a mme pas de garantie quelles
trouvent le minimum le plus proche du point de dpart, sans parler du minimum global. Quatre
possibilits quant ce quon recherche :
1- il est suffisant de connatre un quelconque minimum local
2- seul le minimum global est intressant
3- seul un minimum est dintrt (i.e. la solution physique ), mais ce nest pas forcment le
minimum global.
4- tous les minima locaux, incluant le minimum global, doivent tre catalogus
La premire possibilit est rare, mais facile puisque nimporte quelle routine de minimisation fera
laffaire.
La possibilit 2 est plus commune, particulirement dans loptimisation des systmes o le cot
doit tre le plus petit possible. Quelques solutions existent pour trouver des minima globaux (voir
description de 2 mthodes plus loin). Toutes ces solutions souffrent de labsence dune rgle
darrt : mme si le minimum global est trouv, il ny a aucun moyen de le reconnatre, moins
de savoir que la fonction est borne et quelle a atteint sa borne infrieure.
La possibilit 3 survient souvent dans la recherche scientifique ou des approximations de certains
paramtres sont connues et quon cherche une solution pas trop lointaine de ces valeurs. La
technique usuelle pour tre sr de rester dans la bonne valle est de fixer les paramtres
approximativement connus leurs valeurs estimes, et de minimiser par rapport aux autres
variables, puis en partant de ce point minimum de minimiser sur tout lespace des variables.
La possibilit 4 est la plus difficile de toute et na pas de solution, part celle prohibitive
dutiliser beaucoup de points galement espacs sur une grille n-dimensionnelle.

Lalgorithme de Gelfand
Probablement lun des mthodes ad hoc les plus fructueuse est celle de Gelfand [Gelfand I.M. and
Tsetlin M.L.,Soviet Phys. Dokl.,6,192 (1961)]. Elle est non locale parce quelle fournit un moyen naturel que
la fonction croisse aussi bien quelle dcroisse nimporte quel pas, tout en tendant gnralement
diminuer la valeur de la fonction.

Partant dun point x0, une minimisation locale


x1
commence (par exemple, selon le gradient) jusqu
x0
ce que les diffrences entre les pas devienne petite
x2
(au point a0). Puis, en revenant au point de dpart, un
long pas alatoire est fait au point x1, et une autre
x3
a1
minimisation est entreprise qui atteint le point a1.
a2
Puis, le pas du prcipice est pris sur une ligne de
a0
a0 a1 (aprs a1) jusqu x2. Puis, une autre
minimisation est effectu partir de x2 donnant a2.
Un autre pas du prcipice est fait sur la ligne de
a1 a2 menant x3, et la recherche continue ainsi.
Le choix de la longueur du pas du prcipice est important pour dterminer si la mthode va
rouler par dessus des petites crtes, mais buter sur une haute montagne . Le choix de la
longueur est fait exprimentalement (par essais) et constitue une caractristique importante de la
mthode. De plus, il ny a pas de rgle darrt (problme de toutes les mthodes globales).

Mthode de Goldstein-Price
[Goldstein A.A and Price J.F. Math. Comput.,25,569 (1971)]

Goldstein et Price ont propos une mthode lgante et simple pour recherche les autres minima
aprs quun minimum ait t trouv. Cette mthode est base sur la considration des proprits
analytiques (en srie de Taylor) de la fonction. La fonction est reprsente par une srie de Taylor
au minimum local x1, o les premires drives sannulent :
1
f (x) = f (x1 ) + (x x1 )T H(x x1 ) + h.t....
2
Maintenant, les termes de haut degr (h.t.), impliquant les drives tierce et de plus hauts degrs,
sont importants puisque ce sont ces termes qui donneront lieu aux autres minima locaux. En fait,
on cherche un moyen de transformer la fonction de manire ce que seulement ces termes de
haut degrs restent. Une telle fonction transforme est f1 :
2( f (x) f (x1 ))
f1 (x1, x) =
= 1+ h.t....
(x x1 )T H(x x1 )
Par le biais de cette transformation, on a enlev le minimum x1, et le chemin est nettoy
pour chercher dautres minima gnrs par les termes de haut degr de lexpansion de Taylor
autour de x1. La mthode consiste donc chercher un minimum local de f1. Il est ncessaire de
connatre la matrice H des drives secondes x1. Puisque la forme quadratique
(x x1 )T H(x x1 ) est toujours positive pour H dfini positif, la fonction f1 deviendra ngative
ds quune amlioration sur x1 sera trouve. Puis en partant de ce nouveau point, la fonction
originale f peut tre minimise pour donner un nouveau minimum de f, meilleur que x1.
Si la valeur minimum trouve pour f1 est positive, alors cela peut correspondre un nouveau
minimum pour f, mais pas une amlioration par rapport x1. Dans ce cas, la procdure peut tre

poursuivie partir de ce nouveau point, en construisant une nouvelle fonction f2 partir de f1 tout
comme f1 a t construite partir de f.
Comme pour toutes les mthodes globales , il ny a pas de rgle darrt. La mthode semble
marcher en pratique, bien quon ne connaisse pas les conditions sous lesquelles elle est garantie
marcher.

Ajustement de courbe thorique sur des points exprimentaux.


Soient (xi,yi) les points exprimentaux, une fonction f(p1,p2,p3,), modle thorique gnral avec
paramtres p1,p2,p3. On cherche minimiser lcart entre les yi et les f(p1,p2,p3,) (xi), plus
exactement le carr de cet cart (puisque la diffrence algbrique ne mesure pas vraiment la
diffrence car elle est signe).
n

sce( p1, p2, p3,) = ( f ( p1, p 2, p 3,) (x i ) y i ) 2


i=1

Vu quon cherche le minimum de la fonction sce(p1,p2,p3,) qui est une fonction des
paramtres pi de f (et non pas fonction des xi, yi), on cherche le point (a,b,c) o la drive de
sce(p1,p2,p3,) sannule (o les drives partielles de la fonction sce par rapport aux paramtres
sannulent) :

sce( p1, p2, p3,)


=
p j

( f ( p1, p 2, p 3,) (x i ) y i ) 2
i=1

p j

=0

Exemple :
Si f (x) = ax + b

On obtient pour les 2 drives partielles de sce par rapport aux paramtres a et b :

1)

sce n
= 2x(ax + b y) = 0
a
i=1

2)

sce n
= 2(ax + b y) = 0
b
i=1

do

1 donne 3) (ax 2 + bx yx) = 0

i=1
n

2 donne 4) a x + nb y = 0
i=1

4 donne 5) b =

i=1
n

( y a x )
i=1

i=1

n
n

5 remplace dans 3)

( y a x )

ax 2 +

i=1

i=1

i=1
n
n

do 6) a x +

i=1
2

x y
i=1

n
n

et donc :

xi yi
a=

x y
i=1

i=1

x x

i=1

i=1

xy = 0
i=1

i=1

n x i y i x i y i
=

n
i

i=1

i=1

i=1

i=1

i=1

x xy = 0

a x x

i=1

i=1

i=1
n

i=1

n x i ( x i ) 2
i=1

i=1

Ce qui est la formule standard de la rgression linaire pour le calcul de la pente a.

Vous aimerez peut-être aussi