Vous êtes sur la page 1sur 262

M

ETODOS COMPUTACIONAIS
DE OTIMIZAC

AO
Jose Mario Martnez
Sandra Augusta Santos
Departamento de Matem atica Aplicada
IMECC-UNICAMP
1995
Atualizado em dezembro de 1998

INDICE
1. INTRODUC

AO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.1 UMA CLASSIFICAC

AO INFORMAL . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 UM PROBLEMA DE ESTIMAC

AO DE PAR

AMETROS . . . . . . 3
1.3 DEFININDO MINIMIZADORES . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2. CONDIC

OES DE OTIMALIDADE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.1 RESTRIC

OES EM FORMATO GERAL . . . . . . . . . . . . . . . . . . . . . . 12
2.2 RESTRIC

OES DE IGUALDADE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.3 RESTRIC

OES DE DESIGUALDADE . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.4 RESTRIC

OES DE IGUALDADE E DESIGUALDADE . . . . . . . 22
3. CONVEXIDADE E DUALIDADE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
3.1 CONVEXIDADE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
3.2 DUALIDADE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
4. MINIMIZAC

AO DE QUADR

ATICAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
4.1 QUADR

ATICAS SEM RESTRIC



OES . . . . . . . . . . . . . . . . . . . . . . . . 37
4.1.1 USANDO FATORAC

OES . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
4.1.2 O CASO ESPARSO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
4.1.3 M

ETODOS ITERATIVOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
4.2 QUADR

ATICAS EM BOLAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
4.3 QUADR

ATICAS EM CAIXAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
5. SISTEMAS DE EQUAC

OES N

AO-LINEARES . . . . . . . . . . . . . . . . . . . . 73
5.1 O M

ETODO DE NEWTON . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
5.2 M

ETODOS QUASE-NEWTON . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
5.3 M

ETODOS DE NEWTON INEXATOS . . . . . . . . . . . . . . . . . . . . . . . 79


5.4 CONVERG

ENCIA LOCAL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
5.4.1 O TEOREMA DAS DUAS VIZINHANC AS . . . . . . . . . . . . . 85
5.4.2 CONVERG

ENCIA QUADR

ATICA DE NEWTON . . . . . . 87
5.4.3 CONVERG

ENCIA DOS QUASE-NEWTON . . . . . . . . . . . . 89


5.4.4 CONVERG

ENCIA DOS NEWTON INEXATOS . . . . . . . . 95


6. MINIMIZAC

AO IRRESTRITA E BUSCA LINEAR . . . . . . . . . . . . . . . 99
i
6.1 ALGORITMOS GERAIS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
6.2 O M

ETODO DE NEWTON . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107


6.3 M

ETODOS QUASE-NEWTON . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112


6.4 M

ETODOS DE NEWTON TRUNCADOS . . . . . . . . . . . . . . . . . . . 122


7. REGI

OES DE CONFIANC A . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125


7.1 ALGORITMO GERAL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126
7.2 M

ETODO DE NEWTON . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127


7.3 MINIMIZAC

AO EM CAIXAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135
8. MINIMIZAC

AO UNIDIMENSIONAL . . . . . . . . . . . . . . . . . . . . . . . . . . . . 145
8.1 M

ETODOS DIRETOS PARA REDUC



AO DE INCERTEZA . 145
8.2 APROXIMAC

OES POLINOMIAIS . . . . . . . . . . . . . . . . . . . . . . . . . . 148
8.3 T

ECNICAS DE MINIMIZAC

AO GLOBAL . . . . . . . . . . . . . . . . . . 152
9. RESTRIC

OES LINEARES . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 155
9.1 IGUALDADES . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 156
9.2 ESTRAT

EGIA DE RESTRIC

OES ATIVAS . . . . . . . . . . . . . . . . . . 158
9.3 SAINDO DA FACE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161
9.4 REDUC

AO A CAIXAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163
9.5 PONTOS INTERIORES . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 166
10. PENALIDADE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171
10.1 M

ETODOS DE BARREIRAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 172


10.2 PENALIDADE EXTERNA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 179
10.3 LAGRANGIANO AUMENTADO . . . . . . . . . . . . . . . . . . . . . . . . . . . 188
11. GRADIENTE REDUZIDO GENERALIZADO . . . . . . . . . . . . . . . . . . . 195
11.1 RESTRIC

OES DE IGUALDADE . . . . . . . . . . . . . . . . . . . . . . . . . . . 196
11.2 GRG COM DESIGUALDADES . . . . . . . . . . . . . . . . . . . . . . . . . . . . 200
11.3 IMPLEMENTAC

AO COMPUTACIONAL . . . . . . . . . . . . . . . . . . 202
12. PROGRAMAC

AO QUADR

ATICA SEQUENCIAL . . . . . . . . . . . . . . 205


12.1 PROGRAMAC

AO QUADR

ATICA SEQUENCIAL PURA 206


12.2 FORC ANDO SOLUBILIDADE DO SUBPROBLEMA . . . . . . 208
12.3 A FUNC

AO DE M

ERITO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 210
12.4 DECR

ESCIMO SUFICIENTE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 213


12.5 O PAR

AMETRO DE PENALIDADE . . . . . . . . . . . . . . . . . . . . . . . 216


12.6 O ALGORITMO EST

A BEM DEFINIDO . . . . . . . . . . . . . . . . . . 219


12.7 A PROVA DE CONVERG

ENCIA GLOBAL . . . . . . . . . . . . . . . . 223


ii
12.8 A HESSIANA DA QUADR

ATICA . . . . . . . . . . . . . . . . . . . . . . . . . 226
12.9 OUTRAS FUNC

OES DE M

ERITO . . . . . . . . . . . . . . . . . . . . . . . . . 229
12.10 NOTAS HIST

ORICAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 233
BIBLIOGRAFIA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 237
iii
Chapter 1
Introdu cao
Otimiza c ao e um problema matem atico com muitas aplica c oes no mundo
real. Consiste em encontrar os mnimos ou m aximos de uma fun c ao de
v arias vari aveis, com valores dentro de uma determinada regi ao do espa co
multi-dimensional. Os respons aveis pela tomada de decis oes nos mais vari-
ados campos da atividade humana defrontam-se, cotidianamente, com esse
tipo de necessidade.
`
As vezes, a ndole do problema, a demanda de re-
sultados precisos, ou a pr opria curiosidade, leva a formalizar vari aveis, re-
stri c oes e objetivos, de maneira que a natureza matem atica do problema
emerge. Esse e o processo de modelagem, que descobre isomorsmos entre
a realidade emprica e o idealismo dos objetos matem aticos. No entanto,
a correspondencia entre experiencia e modelo formal est a longe de ser per-
feita: a tradu c ao est a sujeita a erros, simplica c oes e falhas de comunica c ao.
Notavelmente, a problem atica de adequar um modelo matem atico a uma
situa c ao real tambem pode ser formulada como um problema matem atico,
quase sempre de otimiza c ao.
1.1 Uma classica cao informal
O problema a ser considerado neste livro e o seguinte:
Minimizar f(x) sujeita a x IR
n
. (1.1.1)
A fun c ao f e chamada fun c ao objetivo e o conjunto , freq uentemente
denido por um conjunto de igualdades e desigualdades, e o conjunto factvel.
Os pontos de ser ao os pontos factveis de (1.1.1).
1
2 CHAPTER 1. INTRODUC

AO
De fato, estamos t ao interessados em minimizar como em maximizar fun c oes,
mas falaremos apenas de minimizar dado que, claramente, maximizar f(x)
em uma regi ao qualquer do espa co IR
n
e equivalente a minimizar f(x) na
mesma regi ao. As solu c oes x

do problema (1.1.1) ser ao chamadas min-


imizadores e os valores correspondentes f(x

) s ao os mnimos do problema.
Quase sempre assumiremos a continuidade de f e, com freq uencia um pouco
menor, a existencia de derivadas primeiras contnuas.
`
As vezes, vamos supor
tambem que f tem derivadas segundas contnuas.
Conforme as caractersticas do conjunto , teremos os diferentes problemas
de otimiza c ao:
Problema
IR
n
minimiza c ao sem restri c oes
x IR
n
[ l x u minimiza c ao em caixas
x IR
n
[ Ax = b, A IR
mn
minimiza c ao com restri c oes
lineares de igualdade
x IR
n
[ Ax = b, Cx d minimiza c ao com restri c oes
lineares
x IR
n
[ h(x) = 0, h : IR
n
IR
m
minimiza c ao com restri c oes
de igualdade
x IR
n
[ h(x) = 0, h : IR
n
R
m
problema geral de
e g(x) 0, g : IR
n
IR
p
programa c ao n ao linear
Quando v e w s ao vetores, a nota c ao v w signicar a sempre v
i
w
i
para
todas suas coordenadas. Assim, quando falamos da caixa l x u,
entendemos o conjunto dos x IR
n
tais que l
i
x
i
u
i
para todo i =
1, . . . , n. O problema geral de programa c ao n ao linear pode ser reduzido
sempre a uma forma padr ao mediante a introdu c ao de vari aveis de folga.
Com efeito, observamos que o conjunto dos x IR
n
tais que h(x) = 0 e
g(x) 0 coincide com o conjunto
x IR
n
[ h(x) = 0 e g(x) +z = 0 para algum z 0.
Portanto, o problema
Minimizar f(x) sujeita a h(x) = 0, g(x) 0, (1.1.2)
onde h : IR
n
IR
m
, g : IR
n
IR
p
, e equivalente a
Minimizar f(x) sujeita a h(x) = 0, g(x) +z = 0, z 0. (1.1.3)
1.2. UM PROBLEMA DE ESTIMAC

AO DE PAR

AMETROS 3
Agora, mudando os nomes de vari aveis e fun c oes, (1.1.3) tem a forma geral
Minimizar f(x) sujeita a h(x) = 0, x 0. (1.1.4)
A forma (1.1.4) de um problema de programa c ao n ao linear se denomina
forma padr ao. Quando um problema do tipo (1.1.2) e transformado na sua
forma padr ao, o n umero de vari aveis e aumentado em p.
`
As vezes, isso e
uma desvantagem. No entanto, a transforma c ao muitas vezes se justica
por considera c oes algortmicas, como veremos em captulos futuros.
Neste livro a enfase estar a colocada em fun c oes objetivo f(x) n ao lineares.
Quando f e linear (f(x) = c
T
x para algum c IR
n
) o problema de min-
imiza c ao com restri c oes lineares e chamado de problema de programa c ao
linear. Na sua forma padr ao, este problema e
Minimizar c
T
x
Ax = b
x 0 .
(1.1.5)
O conte udo deste livro se aplica a programa c ao linear, embora, pela especi-
cidade deste problema, muito desse conte udo seja superuo. Por outro lado,
as particularidades do problema (1.1.5) permitem um tratamento muito mais
rico e detalhado, que n ao ser a feito aqui. Em menor medida, essa observa c ao
vale tambem no caso em que a fun c ao objetivo e quadr atica e as restri c oes
lineares, chamado problema de programa c ao quadr atica.
1.2 Um problema de estima cao de parametros
Quando o ponto de partida e um problema real, podem existir v arios prob-
lemas matem aticos de otimiza c ao associados, vinculados a diferentes for-
mula c oes ou a diferentes tecnicas de resolu c ao. Nesta se c ao apresentamos
um problema de estima c ao de par ametros originado na

Otica, para o qual
exibimos algumas formula c oes sob o ponto de vista da otimiza c ao. Ver [189],
[33].
Um lme e um material muito no, cuja espessura, ndices de refra c ao e coe-
cientes de absor c ao se deseja estimar. Esses par ametros n ao s ao suscetveis
de medi c ao direta, ou seja, devem ser inferidos da medi c ao de outra magni-
tude fsica. O experimento que gera a medi c ao indireta consiste, brevemente,
no seguinte: coloca-se o material em cima de um substrato transparente e
atravessa-se lme e substrato com luz de diferentes comprimentos de onda.
4 CHAPTER 1. INTRODUC

AO
Para xar ideias, esses comprimentos podem ir desde 800 ate 2000, com in-
tervalos de 10, nas unidades adequadas. Para cada comprimento de onda ,
mede-se a transmiss ao T() [0, 1], isto e, o quociente, adimensional, entre
a luz que atravessa o lme e a luz emitida. Teoricamente, T() se relaciona
com a espessura (d), o coeciente de absor c ao (()) e o ndice de refra c ao
do lme (n()) atraves das seguintes f ormulas (por simplicidade, escrevemos
T = T(), n = n(), = ()):
T =
A

x
B

x +D

x
2
, (1.1.6)
onde
A

= 16s(n
2
+k
2
) (1.1.7)
B

= [(n + 1)
2
+k
2
][(n + 1)(n +s
2
) +k
2
] (1.1.8)
C

= [(n
2
1 +k
2
)(n
2
s
2
+k
2
) 2k
2
(s
2
+ 1)]2 cos
k[2(n
2
s
2
+k
2
) + (s
2
+ 1)(n
2
1 +k
2
)]2 sin (1.1.9)
D

= [(n 1)
2
+k
2
][(n 1)(n s
2
) +k
2
] (1.1.10)
= 4nd/, x = exp(d), k = /(4). (1.1.11)
Nas f ormulas (1.1.6)(1.1.11) s e o ndice de refra c ao do substrato, suposto
conhecido e constante para todo . O experimento fsico fornece uma tabela
de dados onde a coluna da esquerda s ao os comprimentos de onda
i
usados,
desde
1
= 800 ate
m
=
121
= 2000, e a coluna da direita est a formada
pelas medidas correspondentes de transmiss ao (T
i
). As f ormulas (1.1.6)
(1.1.11) denem a fun c ao te orica T(, d, n, ). Portanto, a primeira vista,
o objetivo parece ser encontrar d e n
i
,
i
, i = 1, . . . , m tais que, para todo
i = 1, . . . , m,
T(
i
, d, n
i
,
i
) = T
i
. (1.1.12)
Agora, para cada valor possvel da espessura d, a equa c ao (1.1.12) tem
duas inc ognitas, n
i
e
i
. Portanto, o mais prov avel e que tenha innitas
solu c oes e que, de fato, n ao seja difcil encontrar pelo menos uma. Por ex-
emplo, xando arbitrariamente n
i
e resolvendo (1.1.12) para a agora unica
inc ognita
i
. Claro que esse n ao pode ser o procedimento que resolva o
problema fsico. Fsicamente, o problema deve ter solu c ao unica, enquanto
da maneira descrita, innitas solu c oes diferentes poderiam ser encontradas.
De fato, os graus de liberdade inerentes a (1.1.12) s ao drasticamente reduzi-
dos incorporando informa c oes sicamente conhecidas, algumas obvias, sobre
d, e n. Essas informa c oes s ao:
1.2. UM PROBLEMA DE ESTIMAC

AO DE PAR

AMETROS 5
(a) Tanto a espessura como os coecientes n
i
e
i
s ao positivos. Mais ainda,
os ndices de refra c ao s ao maiores ou iguais a 1.
(b) () deve ser uma fun c ao decrescente e convexa (derivada segunda pos-
itiva).
(c) n() deve ser uma fun c ao decrescente e, tambem, com derivada segunda
positiva.
As condi c oes (a), (b) e (c) devem ser traduzidas como restri c oes do prob-
lema de estimar os par ametros. Ou seja, devem ser encontradas express oes
matem aticas envolvendo d,
i
e n
i
que espelhem essas condi c oes. Discretizando
as derivadas segundas de () e n(), essas express oes s ao:
d 0, n
i
1,
i
0 para todo i = 1, . . . , n; (1.1.13)

i+1

i
e n
i+1
n
i
para todo i = 1, . . . , m1; (1.1.14)
n
i
n
i1
+
n
i+1
n
i1

i+1

i1
(
i

i+1
) e
i

i1
+

i+1

i1

i+1

i1
(
i

i+1
)
(1.1.15)
para todo i = 2, . . . , m2.
Considerando o objetivo (1.1.12) e as restri c oes (1.1.13), (1.1.14) e (1.1.15),
o problema de estima c ao dos par ametros pode agora ser modelado assim:
Minimizar
m

i=1
[T(
i
, d, n
i
,
i
) T
i
]
2
sujeita a (1.1.13), (1.1.14) e (1.1.15).
(1.1.16)
Observamos que (1.1.16) e um problema de minimiza c ao com restri c oes lin-
eares onde h a 2m + 1 vari aveis. Se a tabela de dados (
i
, T
i
) obedecesse
perfeitamente ` as f ormulas te oricas deveria existir uma solu c ao de (1.1.16)
onde o valor da fun c ao objetivo seria 0. Com dados experimentais n ao
e isso o que acontece. De fato, o que se observa nesse caso, usando o
metodo adequado para resolver (1.1.16) e a apari c ao de solu c oes onde
a fun c ao objetivo toma um valor sensivelmente maior que 0. Isto se deve,
alem dos erros de medi c ao que neste caso s ao, provavelmente, desprezveis, a
que a suposi c ao substrato transparente com s constante e essencialmente
falsa. Com efeito, para determinadas zonas do espectro (valores de ) o sub-
strato usado tem um coeciente de absor c ao positivo (n ao e transparente)
e, portanto, para essas zonas as equa c oes (1.1.6)-(1.1.11) n ao se aplicam.
Pior ainda, a distin c ao entre valores de para os quais o substrato n ao e
6 CHAPTER 1. INTRODUC

AO
transparente daqueles para os quais e, n ao e totalmente clara. O grau de
aplicabilidade de (1.1.6)-(1.1.11) e de fato, um contnuo, variando entre a
aplicabilidade e a n ao aplicabilidade absoluta. Um experimento adicional,
que mede a transmiss ao produzida apenas pelo substrato (sem o lme), per-
mite quanticar o grau de aplicabilidade das f ormulas. Diremos, ent ao, que
algumas equa c oes (1.1.12) devem ser satisfeitas com um peso alto e outras
com um peso muito baixo. Atribuindo efetivamente um peso
i
> 0 a cada
equa c ao, de acordo com a transparencia do substrato para o comprimento
de onda
i
, o problema (1.1.16) e substitudo por
Minimizar
m

i=1

i
[T(
i
, d, n
i
,
i
)T
i
]
2
sujeita a (1.1.13), (1.1.14) e (1.1.15).
(1.1.17)
A atribui c ao de pesos ` as diferentes linhas da tabela original tem o efeito
pr atico de eliminar a inuencia dos pontos onde o modelo est a claramente
errado. Isto aumenta os graus de liberdade do sistema total, e possibilita a
existencia de muitas solu c oes de (1.1.17), onde a fun c ao objetivo tem prati-
camente o mesmo valor. O metodo de otimiza c ao encontrou uma dessas
solu c oes.
`
As vezes, pela observa c ao da solu c ao obtida, o fsico tem condi c oes
de decidir se ela e razo avel ou n ao. Neste problema particular, nosso exper-
imentador encontra uma caracterstica da fun c ao considerada indesej avel
e sem sentido fsico: apesar de ser decrescente e convexa, a fun c ao obtida
est a formada por 4 segmentos de reta, violando uma suavidade adicional
esper avel no coeciente de absor c ao real. Como os pontos de quebra dos
diferentes segmentos de reta podem ser considerados como pontos onde a
curvatura da fun c ao e muito grande, optamos por limitar o raio de curvatura
de e incluir explicitamente essa limita c ao no modelo. O c alculo elementar
nos ensina que o raio de curvatura R() de () e dado por
1
R()
=

()
(1 +

()
2
)
3
2
. (1.1.18)
Discretizando

da forma usual, para todo


i
, i = 2, . . . , m 1, e
estabelecendo uma limita c ao > 0 para a curvatura obtemos as novas
restri c oes

(
i
)
(1 +

(
i
)
2
)
3
2
, (1.1.19)
onde as derivadas devem ser interpretadas como sua discretiza c ao usando

i1
,
i+1
e
i
.
Acrescentando (1.1.19) no modelo (1.1.17) passamos a ter m 2 restri c oes
adicionais, todas elas n ao lineares. O problema cou sensivelmente mais
1.3. DEFININDO MINIMIZADORES 7
difcil, mas sua solu c ao tem maiores chances de possuir sentido fsico. Uma
alternativa, motivada pelo fato de que, estritamente falando, a cota e
arbitr aria, consiste em incorporar as restri c oes (1.1.19) na fun c ao objetivo.
Assim, a fun c ao objetivo de (1.1.17) passaria a ser
m

i=1

i
[T(
i
, d, n
i
,
i
) T
i
]
2
+
m1

i=2

(
i
)
(1 +

(
i
)
2
)
3
2
. (1.1.20)
Em (1.1.20), e um par ametro que castiga o fato de se ter uma curvatura
grande em
i
. Desta maneira, n ao e necess ario acrescentar as restri c oes
(1.1.19) no problema (1.1.17).
A inclus ao de (1.1.19) na sua forma original ou sob a forma (1.1.20) reduz,
claramente, os graus de liberdade do problema e, em conseq uencia, aumenta
a probabilidade de encontrar coecientes com sentido fsico. Se isso e efeti-
vamente conseguido depende de (muita) experimenta c ao numerica, di alogo
com os cientistas experimentais e sensibilidade especca. A constru c ao de
um bom modelo de otimiza c ao raramente se esgota em dois ou tres passos
de di alogo.
1.3 Denindo minimizadores
Daremos sentidos precisos aos termos minimizador e mnimo usados nas
se c oes anteriores. Basicamente, veremos que esses termos podem ter dois
signicados:
(a) Dizemos que x

e minimizador global de (1.1.1) se f(x

) f(x) para
todo x . Neste caso, f(x

) e chamado mnimo de f em .
(b) Dizemos que x

e minimizador local de (1.1.1) se existe > 0 tal que


f(x

) f(x) para todo x tal que |x x

| .
Tambem, costuma-se dizer que x

e minimizador local estrito de (1.1.1) se


existe > 0 tal que f(x

) < f(x) para todo x tal que 0 < |xx

| .
Claramente, todos os minimizadores globais tambem s ao minimizadores lo-
cais.

E f acil ver que, por outro lado, apesar de poder admitir muitos mini-
mizadores globais, o valor do mnimo global e sempre o mesmo. Por exemplo,
numa fun c ao constante, todos os pontos de s ao minimizadores globais, mas
em todos eles o valor de f e igual.
8 CHAPTER 1. INTRODUC

AO
Lembramos que um conjunto compacto e tal que toda seq uencia x
k

admite uma subseq uencia convergente. O limite dessa subseq uencia deve
pertencer a . Por outro lado, em IR
n
, os conjuntos compactos s ao ex-
atamente os fechados e limitados. Como a imagem inversa de conjuntos
fechados por fun c oes contnuas e fechada, o conjunto factvel do problema
geral de programa c ao linear e fechado no caso usual em que as fun c oes g
i
e
h
i
s ao contnuas. Portanto, para ser compacto, esse conjunto precisa, ape-
nas, ser limitado. O seguinte teorema, de prova bastante simples, e o mais
importante da minimiza c ao global.
Teorema 1.3.1 - Bolzano-Weierstrass
Se e compacto, e f : IR e contnua, ent ao existe x

minimizador
global do problema (1.1.1).
Prova: Consideremos primeiro a possibilidade de que f n ao seja limitada
inferiormente em . Ent ao, para cada k ^, existe x
k
tal que
f(x
k
) k,
portanto,
lim
k
f(x
k
) = . (1.1.21)
Como e compacto, existe K
1
um subconjunto innito de ^ tal que a
subseq uencia x
k

kK
1
converge a um ponto de , digamos x

. Pela con-
tinuidade de f, isto implica que
lim
kK
1
f(x
k
) = f(x

),
o que entra em contradi c ao com (1.1.21).
Podemos aceitar, portanto, que f e limitada inferiormente em . Seja
= inf
x
f(x) > .
Pela deni c ao de nmo, para todo k ^, existe x
k
tal que
f(x
k
) +
1
k
,
portanto
lim
k
f(x
k
) = .
1.3. DEFININDO MINIMIZADORES 9
Seja x
k

kK
1
uma subseq uencia convergente de x
k
e seja x

seu limite.
Ent ao, pela continuidade de f,
= lim
kK
1
f(x
k
) = f(x

).
Ou seja, f(x

) assume o valor nmo de f no conjunto . Isto implica que


x

e minimizador global de (1.1.1). QED


Exerccio 1.1: As restri c oes do problema (1.1.17) podem ser expressas
como Ax b, l x u. Identicar a matriz A e os vetores b, l e u.
Exerccio 1.2: Encontrar exemplos onde todos os pontos de s ao mini-
mizadores locais mas f(x) ,= f(y) se x ,= y.
Exerccio 1.3: Desenhar conjuntos em IR
2
e curvas de nvel de fun c oes
f tais que existam v arios minimizadores locais, globais, locais e globais, etc.
Exerccio 1.4: Demonstrar o teorema Bolzano-Weierstrass para o caso em
que f e semi-contnua inferiormente.
Exerccio 1.5: Mostrar, com exemplos, que acontece quando as hip oteses
de continuidade e compacidade do teorema Bolzano-Weierstrass s ao elimi-
nadas.
Exerccio 1.6: Provar que se f e contnua em IR
n
e lim
x
f(x) = ent ao
f tem minimizador global em IR
n
.
Exerccio 1.7: Provar que se f e contnua em IR
n
e, dado x
0
IR
n
, o con-
junto de nvel x IR
n
[ f(x) f(x
0
) e limitado, ent ao f tem minimizador
global em IR
n
.
10 CHAPTER 1. INTRODUC

AO
Chapter 2
Condi c oes de otimalidade
Neste livro tratamos de metodos para minimizar fun c oes diferenci aveis em
conjuntos de IR
n
. As condi c oes de otimalidade s ao rela c oes entre as derivadas
da fun c ao objetivo e as derivadas das fun c oes que denem as restri c oes.
As condi c oes necess arias devem ser obrigatoriamente satisfeitas por mini-
mizadores, enquanto as condi c oes sucientes, quando satisfeitas, asseguram
que o ponto em considera c ao e um minimizador local.
As derivadas (sobretudo as primeiras, ` as vezes tambem as segundas) da
fun c ao objetivo e das restri c oes s ao o motor da maioria dos algoritmos que
estudaremos, da mesma maneira que a potencialidade de movimento de
uma partcula se encontra na sua velocidade e acelera c ao. As condi c oes
necess arias de otimalidade v ao nos dizer se as derivadas envolvidas contem
o germe necess ario para imprimir um deslocamento que diminua o valor da
fun c ao objetivo. Os metodos que estudaremos em captulos posteriores -
cam est aticos em cima de um ponto que satisfaz condi c oes necess arias de
otimalidade, mesmo que esse ponto n ao seja minimizador local nem, muito
menos, global. Analogamente, quando estudamos convergencia de algorit-
mos baseados em derivadas, podemos garantir apenas a estacionariedade
(isto e, a satisfa c ao de condi c oes necess arias de otimalidade) dos pontos
atingveis no limite.
Freq uentemente, pontos limite de algoritmos s ao minimizadores, sobretudo
quando o metodo trabalha ativamente diminuindo o valor da fun c ao objetivo
em cada itera c ao. No entanto, garantir a condi c ao de minimizador costuma
ser difcil. Quando condi c oes sucientes de otimalidade s ao satisfeitas pode-
mos assegurar que o ponto em quest ao e minimizador local. A globalidade,
no entanto, e muito mais complicada.
Ao longo deste captulo supomos que f est a bem denida e tem derivadas
11
12 CHAPTER 2. CONDIC

OES DE OTIMALIDADE
primeiras contnuas em um aberto que contem o conjunto . Denotamos
f(x) = f

(x)
T
= (
f
x
1
(x), . . . ,
f
x
n
(x))
T
.
Indicamos, como e usual, f C
k
() para expressar que f tem derivadas
contnuas ate a ordem k no aberto que contem . A express ao f C
k
indica que f tem derivadas contnuas ate a ordem k num aberto que contem
o domnio n ao especicado de f.
A nota c ao A 0 para A IR
nn
indica que A e semidenida positiva. Da
mesma forma, A > 0 signica que A e denida positiva.
2.1 Restri c oes em formato geral
Consideremos o problema
Minimizar f(x)
x .
(2.1.1)
As curvas no conjunto desempenham um papel importante na deriva c ao
de condi c oes pr aticas de otimalidade. A primeira condi c ao de otimalidade
que obteremos est a baseada apenas no comportamento da fun c ao objetivo
em cima de curvas factveis que passam pelo ponto considerado. Apesar de
sua generalidade, esta condi c ao de otimalidade e usada no desenvolvimento
de algoritmos modernos de minimiza c ao (pontos limite desses algoritmos
satisfazem a condi c ao). Ver [142], [144].
Deni c ao 2.1.1
Dado x

, chamamos curva em partindo de x

a uma fun c ao contnua


: [0, ] tal que > 0 e (0) = x

.
Deni c ao 2.1.2
Dado x

, chamamos curva em de classe C


k
partindo de x

a uma
fun c ao : [0, ] tal que > 0, (0) = x

e C
k
[0, ].
Teorema 2.1.3 - Condi c ao necess aria de primeira ordem baseada
em curvas
Seja x

minimizador local de (2.1.1), e uma curva em de classe C


1
partindo de x

. Ent ao f(x

)
T

(0) 0.
2.1. RESTRIC

OES EM FORMATO GERAL 13
Prova: Denimos : [0, ] IR por (t) = f((t)). Como x

e mini-
mizador local, existe
1
(0, ) tal que (t) (0) para todo t (0,
1
).
Assim, ((t) (0))/t 0 para todo t (0,
1
) e, ent ao,

(0) 0. Mas,
pela regra da cadeia,

(t) = f

((t))

(t),
portanto f((0))
T

(0) = f(x

)
T

(0) 0. QED
Corol ario 2.1.4
Seja x

um ponto interior de tal que x

e minimizador local de (2.1.1).


Ent ao f(x

) = 0.
Exerccio 2.1: Demonstrar o Corol ario 2.1.4.
Exerccio 2.2: Provar que no Corol ario 2.1.4 e suciente que f tenha
derivadas para obter a tese.
Corol ario 2.1.5
Seja x

minimizador de f em IR
n
. Ent ao f(x

) = 0.
Teorema 2.1.6 - Condi c ao necess aria de segunda ordem baseada
em curvas.
Seja x

minimizador local de (2.1.1), f C


2
().
(a) Para toda curva em de classe C
2
partindo de x

, f(x

)
T

(0) =

(0) 0, onde (t) = f((t)).


(b) Se

(0) = 0, ent ao

(0) 0.
Prova: A prova do item (a) e a dada do Teorema 2.1.3. Em (b), quando

(0) = 0 temos (t) = (0) +


1
2

(0)t
2
+ o(t
2
), onde lim
t0
o(t
2
)/t
2
= 0.
Portanto,
lim
t0
(t) (0)
t
2
=
1
2

(0).
Por ser x

minimizador local, temos que (t) (0) para t sucientemente


pequeno. Portanto,

(0) 0. QED
Exerccio 2.3: Generalizar o Teorema 2.1.6, denindo o teorema da condi c ao
necess aria de otimalidade de ordem k baseada em curvas.
Deni c ao 2.1.7
14 CHAPTER 2. CONDIC

OES DE OTIMALIDADE
Dado x , dizemos que e uma curva em de classe C
k
passando por x
se : [, ] , > 0, (0) = x e C
k
.
Lema 2.1.8
Se x

e um minimizador local de (2.1.1) e e uma curva em de


classe C
1
passando por x

, ent ao f(x

)
T

(0) = 0.
Prova: Denimos
1
: [0, ] por
1
(t) = (t) e
2
: [0, ] por

2
(t) = (t). Pelo Teorema 2.1.3,
f(x

)
T

1
(0) 0 e f(x

)
T

2
(0) 0.
Mas

1
(0) =

(0) e

2
(0) =

(0), logo f(x

)
T

(0) = 0. QED
Corol ario 2.1.9 - Condi c ao necess aria de segunda ordem para x

no interior de (ou = IR
n
).
Seja x

minimizador local de (2.1.1), x

ponto interior de . Se f tem


derivadas segundas contnuas numa vizinhan ca de x

ent ao f(x

) = 0 e

2
f(x

) 0.
Prova: Seja d IR
n
, d ,= 0, arbitr ario. Seja : [, ] a curva denida
por (t) = x

+td. Pelo Corol ario 2.1.4 e o Lema 2.1.8,


f(x

)
T
d f(x

)
T

(0) = 0.
Como d e arbitr ario, segue que f(x

) = 0. Denindo : [, ] IR por
(t) = f[(t)], temos

(0) = f(x

)
T

(0) = 0 e pelo Teorema 2.1.6,


0

(0) =

(0)
T

2
f(x

(0) = d
T

2
f(x

)d.
Novamente, a arbitrariedade de d implica em
2
f(x

) 0. QED
Teorema 2.1.10 - Condi c ao suciente de segunda ordem para x

no interior de (ou = IR
n
) Seja f C
2
() e x

ponto interior de
tal que f(x

) = 0 e
2
f(x

) > 0. Ent ao x

e minimizador local estrito do


problema (2.1.1).
Prova: Escrevendo a expans ao de Taylor para f em torno de x

, como
f(x

) = 0, temos:
f(x) = f(x

) +
1
2
(x x

)
T

2
f(x

)(x x

) +o(|x x

|
2
) ,
2.2. RESTRIC

OES DE IGUALDADE 15
onde lim
xx
o(|x x

|
2
)/|x x

|
2
= 0 e | | e uma norma qualquer em
IR
n
. Como
2
f(x

) > 0, existe a > 0 tal que, para todo x ,= x

,
(x x

)
T

2
f(x

)(x x

) a|x x

|
2
> 0 .
Logo, f(x) f(x

) +
a
2
|x x

|
2
+o(|x x

|
2
). Portanto, para x ,= x

,
f(x) f(x

)
|x x

|
2

a
2
+o(1),
onde o(1)
o(xx
2
)
xx
2
tende a 0 quando x x

. Em conseq uencia, para x


sucientemente pr oximo e diferente de x

,
f(x) f(x

)
|x x

|
2

a
4
> 0.
Logo, f(x) > f(x

) para todo x numa vizinhan ca de x

, x ,= x

. QED
Exerccio 2.4: Encontrar exemplos onde:
(a) x

e minimizador local de f em , mas f(x

) ,= 0.
(b) x

e minimizador local de f em , f(x

) = 0 mas
2
f(x

) n ao e
semidenida positiva.
(c) e aberto, f(x

) = 0 mas x

n ao e minimizador local.
(d) e aberto, f(x

) = 0,
2
f(x

) 0 mas x

n ao e minimizador
local.
(e) e aberto, x

e minimizador local estrito mas


2
f(x

) n ao e denida
positiva.
2.2 Restri c oes de igualdade
Consideremos o problema de minimiza c ao com restri c oes gerais de igual-
dade:
Minimizar f(x)
h(x) = 0
(2.2.1)
onde h : IR
n
IR
m
. Como sempre, chamamos ao conjunto factvel do
problema. Neste caso = x IR
n
[ h(x) = 0.
16 CHAPTER 2. CONDIC

OES DE OTIMALIDADE
Deni c ao 2.2.1 Se x , chamamos conjunto tangente a por x (deno-
tado por M(x)) ao conjunto dos vetores tangentes a curvas em passando
por x, ou seja:
M(x) = v IR
n
[ v =

(0) para alguma curva passando por x .


Utilizando a nota c ao
h

(x) =
_
_
_
_
h
1
x
1
(x) . . .
h
1
xn
(x)
.
.
.
hm
x
1
(x) . . .
hm
xn
(x)
_
_
_
_
=
_
_
_
h

1
(x)
.
.
.
h

m
(x)
_
_
_ =
_
_
_
h
1
(x)
T
.
.
.
h
m
(x)
T
_
_
_ ,
podemos relacionar M(x) com o n ucleo do Jacobiano de h(x), denotado por
^(h

(x)), pelo seguinte lema:


Lema 2.2.2
Para todo x , M(x) ^(h

(x)).
Prova: Seja v M(x) e : [, ] tal que

(0) = v, (0) = x.
Denimos (t) = h((t)), para todo t [, ]. Portanto, (t) = 0 para
todo t [, ]. Logo,

(t) (
1
(t), . . . ,
m
(t))
T
= 0 para todo t
(, ). Mas, pela regra da cadeia,

(t) = h

((t))

(t), portanto
h

((t))

(t) = 0
para todo t (, ). Logo, 0 = h

(x)

(0) = h

(x)v, ou seja, v ^(h

(x)).
QED

E natural que nos indaguemos sobre a validade da recproca do Lema 2.2.2:


^(h

(x)) M(x) ? Em geral esta rela c ao n ao e verdadeira, conforme ilus-


tra o seguinte exemplo. Consideremos h(x
1
, x
2
) = x
1
x
2
, x = ( 0, 0 )
T
.
Ent ao M(x) = v IR
2
[ v
1
v
2
= 0, mas h

(x) = (0, 0) e, claramente,


^(h

(x)) = IR
2
.
Deni c ao 2.2.3
Dizemos que x x IR
n
[ h(x) = 0 e um ponto regular se o posto de
h

(x) e igual a m (h
1
(x), . . . , h
m
(x) e um conjunto linearmente inde-
pendente).
Teorema 2.2.4
2.2. RESTRIC

OES DE IGUALDADE 17
Seja = x IR
n
[ h(x) = 0, h C
k
, x um ponto regular. Ent ao,
para todo v ^(h

(x)), existe uma curva de classe C


k
passando por x tal
que

(0) = v. Portanto, M(x) = ^(h

(x)).
Prova: Seja v ^(h

(x)). Ent ao h

(x)v = 0. Queremos encontrar uma


curva em passando por x tal que

(0) = v. Consideramos o sistema de


equa c oes
h(x +tv +h

(x)
T
u) = 0 , (2.2.2)
Para x e v xos, este e um sistema de m equa c oes com m+1 vari aveis (u
IR
m
e t IR). Colocando u = 0, t = 0 temos uma solu c ao particular deste
sistema. O Jacobiano de (2.2.2) em rela c ao a u em t = 0 e h

(x)h

(x)
T

IR
mm
e e n ao singular pela regularidade de x. Logo, pelo Teorema da
Fun c ao Implcita, existe C
k
, denida em [, ], > 0, tal que (2.2.2)
se verica se e somente se u = (t). Portanto
h(x +tv +h

(x)
T
(t)) = 0 para todo t [, ] . (2.2.3)
Derivando (2.2.3) em rela c ao a t, para t = 0 temos h

(x)(v+h

(x)
T

(0)) = 0.
Como h

(x)v = 0, segue que h

(x)h

(x)
T

(0) = 0. Mas h

(x)h

(x)
T
e n ao
singular, logo

(0) = 0.
Em conseq uencia, denindo : [, ] por
(t) = x +tv +h

(x)
T
(t),
temos que

(0) = v +h

(x)
T

(0) = v.
Assim, e a curva procurada. Como v e arbitr ario, temos que ^(h

(x))
M(x). Portanto, M(x) = ^(h

(x)). QED
Como conseq uencia do Teorema 2.2.4 temos o seguinte resultado:
Teorema 2.2.5
Se x

e minimizador local regular de (2.2.1), ent ao f(x

) ^(h

(x

)).
Prova: Seja v ^(h

(x

)). Como x

e regular, existe em passando


por x

tal que

(0) = v. Pelo Lema 2.1.8, f(x

)
T
v = 0. QED
Teorema 2.2.6 - Multiplicadores de Lagrange
18 CHAPTER 2. CONDIC

OES DE OTIMALIDADE
Se x

e minimizador local regular de (2.2.1), ent ao existem unicos


1
, . . . ,
m
reais tais que f(x

) +

m
i=1

i
h
i
(x

) = 0. (
1
, . . . ,
m
s ao chamados mul-
tiplicadores de Lagrange do problema.)
Prova: Pelo Teorema 2.2.5, f(x

) ^(h

(x

)). Logo, f(x

) (h

(x

)
T
),
isto e, existe IR
m
tal que f(x

) +h

(x

)
T
= 0. Como x

e regular, o
Jacobiano h

(x

) tem posto completo e ent ao esse vetor de multiplicadores


IR
m
e unico. QED
Considerando os resultados obtidos para o problema (2.2.1), os candidatos
a minimizador local para este problema ser ao os pontos regulares que, ao
mesmo tempo, sejam solu c oes do sistema n ao linear com n +m equa c oes e
n +m inc ognitas
f(x) +h

(x)
T
= 0
h(x) = 0
(2.2.4)
Esses pontos ser ao chamados estacion arios ou crticos. Naturalmente, os
pontos n ao regulares de tambem seriam candidatos a minimizador local.
Exerccio 2.5: Provar o Teorema 2.2.6 usando o seguinte argumento: como
x

e regular, vale o Teorema da Fun c ao Implcita. Logo h(x) = 0 e, local-


mente, x
B
= (x
N
). Ent ao o problema (2.2.1) se reduz localmente a um
problema sem restri c oes nas vari aveis x
N
. A condi c ao necess aria de primeira
ordem para minimiza c ao irrestrita implica a tese do teorema.
Exerccio 2.6: Provar que se h(x) = Axb, a regularidade n ao e necess aria
para a existencia dos multiplicadores de Lagrange no Teorema 2.2.6.
Exerccio 2.7: Provar que se x

e minimizador local de (2.2.1) ent ao exis-


tem
0
,
1
, . . . ,
m
reais tais que
0
f(x

) +

m
i=1

i
h
i
(x

) = 0.
Deni c ao 2.2.7
Chamamos Lagrangiano do problema (2.2.1) ` a fun c ao (x, ) = f(x) +
h(x)
T
.
Exerccio 2.8: Relacionar a n ao singularidade do Jacobiano do sistema
(2.2.4) com o comportamento de
2
xx
(x, ) no n ucleo de h

(x).
Exerccio 2.9: Dar um exemplo onde x

seja minimizador de (2.2.1) mas


2.2. RESTRIC

OES DE IGUALDADE 19
x

seja maximizador de f restrita ` a variedade tangente am.


Teorema 2.2.8 - Condi c oes necess arias de segunda ordem para re-
stri c oes de igualdade.
Suponhamos que f, h C
2
, x

e minimizador local regular de (2.2.1) e e


o vetor de multiplicadores de Lagrange denido no Teorema 2.2.6. Ent ao
v
T

2
xx
(x

, )v 0, para todo v ^(h

(x

)).
Prova: Pelo Teorema 2.2.6,
f(x

) +h

(x

)
T
= 0 (2.2.5)
Seja v ^(h

(x

)). Pelo Teorema 2.2.4, existe uma curva em de


classe C
2
passando por x

((0) = x

) e tal que v =

(0). Tambem,

(0) ^(h

(x

)). Denindo (t) = f((t)), pelo Lema 2.1.8,

(0) =
f(x

)
T

(0) = 0 e ent ao pelo Teorema 2.1.6,

(0) =

(0)
T

2
f(x

(0) +f(x

)
T

(0) 0 (2.2.6)
Agora, denindo
i
(t) =
i
h
i
((t)), i = 1, . . . , m, temos que

i
(t) = 0 para
todo t (, ), portanto

i
(0) =

(0)
T

2
h
i
(x

(0) +
i
h

i
(x

(0) = 0 .
Logo
m

i=1

i
(0) =

(0)
T
m

i=1

2
h
i
(x

(0) +
T
h

(x

(0) = 0 . (2.2.7)
Somando (2.2.7) e (2.2.6), por (2.2.5) segue que

(0)
T
(
2
f(x

) +
m

i=1

2
h
i
(x

))

(0) 0.
Por ser v arbitr ario a prova est a completa. QED
Teorema 2.2.9 - Condi c oes sucientes de segunda ordem para re-
stri c oes de igualdade.
Se f, h C
2
, x

satisfaz as condi c oes necess arias de primeira ordem


para (2.2.1), e o vetor de multiplicadores de Lagrange e y
T

2
xx
(x, )y > 0
para todo y ^(h

(x

)), y ,= 0, ent ao x

e minimizador local estrito para


20 CHAPTER 2. CONDIC

OES DE OTIMALIDADE
(2.2.1).
Exerccio 2.10: Usando a redu c ao a problemas irrestritos atraves do Teo-
rema da Fun c ao Implcita, provar os Teoremas 2.2.8 e 2.2.9.
Exerccio 2.11: Considerar o problema perturbado MRI()
Minimizar f(x)
h(x) =
e seja x

solu c ao regular de MRI(0). Chamando x

= x(0) e usando as
condi c oes de otimalidade de MRI() e o Teorema da Fun c ao Implcita para
denir x(), provar que
f

i
(x(0)) =
i
, i = 1, . . . , m.
2.3 Restri c oes de desigualdade
Consideremos agora o problema de minimiza c ao com restri c oes gerais de
desigualdade:
Minimizar f(x)
c(x) 0
(2.3.1)
onde c : IR
n
IR
p
.
Deni c ao 2.3.1
Para cada x = x IR
n
[ c(x) 0, chamamos de restri c oes ativas
em x ` aquelas para as quais c
i
(x) = 0. Analogamente, chamamos restri c oes
inativas em x ` aquelas para as quais c
i
(x) < 0. Como na deni c ao 2.2.4,
chamaremos ponto regular a um ponto de onde os gradientes das restri c oes
ativas s ao linearmente independentes.
A prova do seguinte lema e evidente.
Lema 2.3.2
Se x

e minimizador local de (2.3.1) e I = i 1, . . . , p [ c


i
(x

) = 0,
ent ao x

e minimizador local do problema


Minimizar f(x)
c
i
(x) = 0, i I .
2.3. RESTRIC

OES DE DESIGUALDADE 21
Com base no Lema 2.3.2, podemos aplicar ao problema (2.3.1) resultados j a
conhecidos para o problema de minimiza c ao com restri c oes de igualdade.
Lema 2.3.3
Se x

e minimizador local de (2.3.1), I = i 1, . . . , p [ c


i
(x

) = 0 e
c
i
(x

), i I e um conjunto linearmente independente, ent ao para todo


i I existe
i
IR tal que
f(x

) +

iI

i
c
i
(x

) = 0 .
Prova: An aloga ` a do Teorema 2.2.6. QED
O Lemma 2.3.3 nos diz que o gradiente de f e combina c ao linear dos gradi-
entes das restri c oes ativas num minimizador local regular do problema. O
teorema seguinte mostra que sabemos algo sobre os sinais dos coecientes
dessa combina c ao linear.
Teorema 2.3.4 - Condi c oes Karush-Kuhn-Tucker (KKT).
Se x

e minimizador local regular de (2.3.1) (I = i 1, . . . , p [ c


i
(x

) =
0 e c
i
(x

), i I e um conjunto linearmente independente) ent ao exis-


tem unicos
i
IR,
i
0, i I tais que
f(x

) +

iI

i
c
i
(x

) = 0 .
Prova: Tendo em vista o Lema 2.3.3, existem
i
IR, i I tais que
f(x

) +

iI

i
c
i
(x

) = 0 . (2.3.2)
Falta apenas mostrar que
i
0, i I. Suponhamos que exista k I tal
que
k
< 0. Chamemos

I
= x IR
n
[ c
i
(x) = 0, i I,

k
= x IR
n
[ c
i
(x) = 0, i I, i ,= k,
M
I
(x

) o conjunto tangente a
I
por x

e M
k
(x

) o conjunto tangente a

k
por x

. Pela regularidade de x

, c
k
(x

) n ao e combina c ao linear dos


22 CHAPTER 2. CONDIC

OES DE OTIMALIDADE
outros gradientes de restri c oes ativas em x

. Portanto, existe y M
k
(x

)
tal que
c
k
(x

)
T
y < 0 . (2.3.3)
Seja (t) uma curva em
k
passando por x

com

(0) = y. Ent ao, para


t 0 sucientemente pequeno, (t) x IR
n
[ c(x) 0. Chamando
(t) = f((t)), temos que

(0) = f(x

)
T
y. Logo, por (2.3.2), (2.3.3) e

k
< 0 segue que

(0) < 0, o que contradiz o fato de x

ser minimizador
local. QED
2.4 Restri c oes de igualdade e desigualdade
Consideremos agora o problema geral de programa c ao n ao linear:
Minimizar f(x)
h(x) = 0
c(x) 0
(2.4.1)
onde h : IR
n
IR
m
e c : IR
n
IR
p
.
Podemos estabelecer condi c oes an alogas ` as do Teorema (2.3.4) para o prob-
lema (2.4.1). De maneira similar aos casos anteriores, denimos ponto reg-
ular do conjunto factvel como um ponto onde os gradientes das restri c oes
ativas s ao linearmente independentes.
Teorema 2.4.1 - Condi c oes Karush-Kuhn-Tucker gerais.
Seja x

um minimizador local regular de (2.4.1). Seja I = i 1, . . . , p [ c


i
(x

) =
0. Suponhamos que h
i
(x

), . . . , h
m
(x

) c
i
(x

), i I e um con-
junto linearmente independente. Ent ao existem unicos
1
. . . ,
m
IR e

i
0 para todo i I tais que
f(x

) +
m

i=1

i
h
i
(x

) +

iI

i
c
i
(x

) = 0 .
Exerccio 2.13: Demonstrar o Teorema 2.4.1.
Desta forma, se x e um ponto regular e minimizador local para o problema
(2.4.1), denindo
i
= 0 se i , I, podemos reescrever as condi c oes KKT da
seguinte forma:
2.4. RESTRIC

OES DE IGUALDADE E DESIGUALDADE 23
f(x) +
m

i=1

i
h
i
(x) +
p

i=1

i
c
i
(x) = 0 (2.4.2)
h(x) = 0 (2.4.3)

i
c
i
(x) = 0 , i = 1, . . . , p (2.4.4)

i
0 , i = 1, . . . , p (2.4.5)
c
i
(x) 0 , i = 1, . . . , p (2.4.6)
As n + m + p equa c oes (2.4.2) - (2.4.4) formam um sistema n ao linear nas
inc ognitas x IR
n
, IR
m
e IR
p
. As solu c oes deste sistema que satis-
fazem (2.4.5) e (2.4.6) s ao os pontos estacion arios de (2.4.1)
Teorema 2.4.2 - Condi c oes necess arias de segunda ordem ( re-
stri c oes de igualdade e desigualdade).
Seja x

ponto regular e minimizador local de (2.4.1). Seja A a matriz cujas


linhas s ao os gradientes das restri c oes ativas em x

, excluindo os gradientes
daquelas restri c oes de desigualdade cujo multiplicador e zero. Ent ao, se e
s ao os vetores de multiplicadores de Lagrange dados no Teorema 2.4.1,
y
T

2
xx
(x

, , )y 0 para todo y ^(A) ,


onde
(x, , ) = f(x) +
m

i=1

i
h
i
(x) +
p

i=1

i
c
i
(x) .
Exerccio 2.14: Demonstrar o Teorema 2.4.2.
Exerccio 2.16: Refazer os resultados deste captulo trocando minimizadores
por maximizadores.
Exerccio 2.17: Interpretar geometricamente todos os resultados deste
captulo, incluindo os relativos ao Exerccio 2.16.
Exerccio 2.18: Estudar o Lema de Farkas, de um texto adequado sobre
convexidade, e deduzir as condi c oes de otimalidade da programa c ao linear.
Observar que, desta maneira, a aplica c ao do Teorema 2.3.4 ` a programa c ao
linear n ao depende da regularidade do ponto. Usando esse resultado, provar
o resultado do Teorema 2.3.4 para minimiza c ao com restri c oes lineares sem
24 CHAPTER 2. CONDIC

OES DE OTIMALIDADE
a condi c ao de regularidade.
Exerccio 2.19: Desenhar um diagrama de conjuntos onde apare cam clara-
mente as rela c oes de inclus ao existentes entre pontos regulares, pontos n ao
regulares, minimizadores locais, minimizadores globais, pontos Karush-Kuhn-
Tucker e solu c oes do sistema n ao linear (2.4.2)-(2.4.4).
24 CHAPTER 2. CONDIC

OES DE OTIMALIDADE
Chapter 3
Convexidade e dualidade
Apesar da extensa an alise permitida pelos dois temas tratados neste captulo,
procuramos fazer uma abordagem sintetica para ambos. Nosso enfoque tem
em vista os aspectos te oricos que efetivamente contribuem para o desen-
volvimento de algoritmos pr aticos. Por exemplo, uma das propriedades
mais fortes obtidas com hip oteses de convexidade em um problema de min-
imiza c ao e que as condi c oes necess arias de otimalidade passam a ser su-
cientes. Em outras palavras, um ponto Karush-Kuhn-Tucker torna-se uma
solu c ao do problema. A teoria da dualidade, por sua vez, permite uma
abordagem do problema original sob um outro ponto de vista. O dual de
um problema de otimiza c ao tem como vari aveis quantidades associadas ` as
restri c oes do problema original. Em condi c oes adequadas, resolver o prob-
lema dual e equivalente a resolver o original (primal) e, ` as vezes, trabalhar
com o dual e mais f acil que com o primal. Mesmo em situa c oes onde o
primal e o dual n ao s ao equivalentes, problemas duais resol uveis fornecem
informa c oes uteis para resolver seus primais correspondentes. Do ponto de
vista te orico, convexidade e dualidade fornecem estruturas sob as quais re-
sultados relevantes sobre algoritmos e problemas podem ser obtidos. Por
exemplo, as condi c oes de otimalidade podem ser derivadas usando teoremas
de separa c ao de conjuntos convexos por hiperplanos (ver [91]). Por outro
lado, a teoria de convergencia de metodos importantes em programa c ao n ao
linear, como o metodo do Lagrangeano aumentado (captulo 10 deste livro)
e enriquecida pela considera c ao do problema dual (ver [175]).
25
26 CHAPTER 3. CONVEXIDADE E DUALIDADE
3.1 Convexidade
Um conjunto convexo se caracteriza por conter todos os segmentos cujos
extremos s ao pontos do conjunto. Se x e y s ao pontos de IR
n
, o segmento
que os une est a formado pelos pontos z da forma y+(xy) x+(1)y
com [0, 1]. Isso justica a seguinte deni c ao.
Deni c ao 3.1.1
O conjunto K IR
n
e chamado um conjunto convexo se para quaisquer
x, y K e para todo [0, 1], x + (1 )y K.
Uma caracteriza c ao util para conjuntos convexos e dada pelo seguinte teo-
rema:
Teorema 3.1.2
K e um conjunto convexo se, e somente se, para quaisquer x
1
, . . . , x
m
el-
ementos de K e para
i
[0, 1], i = 1, . . . , m tais que

m
i=1

i
= 1, a
combina c ao convexa

m
i=1

i
x
i
tambem e um elemento de K.
Exerccio 3.1: Demonstrar o Teorema 3.1.2.
Exerccio 3.1: Seja K IR
n
e | | uma norma arbitr aria.
(a) Provar que, se K e fechado e x IR
n
, o problema de minimizar |y x|
sujeito a y K tem solu c ao.
(b) Provar que, se K e convexo e | | e a norma euclidiana, a solu c ao desse
problema e unica. Nesse caso, a chamamos P
K
(x) (proje c ao de x em K).
(c) De agora em diante, K e convexo e fechado e a norma e a euclidiana.
Provar a propriedade do angulo obtuso: Para todo y K,
y P
K
(x), x P
K
(x)) 0.
(d) Provar a propriedade de aproxima c ao total: Para todo y K,
|y P
K
(x)| |y x|.
(e) Provar a propriedade de contra c ao: Para todo x, z IR
n
,
|P
K
(x) P
K
(z)| |x z|.
Deduzir a continuidade da fun c ao P
K
.
3.1. CONVEXIDADE 27
Apresentamos a seguir alguns resultados b asicos da teoria de convexidade.
Teorema 3.1.3
Se os conjuntos K
i
, i I, s ao convexos, ent ao K =

iI
K
i
tambem e
convexo.
Prova: Sejam x, y K =

iI
K
i
. Ent ao x, y K
i
, i I e como os con-
juntos K
i
, i I s ao convexos, para todo [0, 1], x+(1)y K
i
, i I.
Logo x + (1 )y K para todo [0, 1]. QED
Exerccio 3.2: Se A IR
n
, chamamos de fecho convexo de A ao conjunto
das combina c oes convexas dos pontos de A. Provar que o fecho convexo de
qualquer conjunto e convexo. Provar que o fecho convexo de A IR
n
est a
contido em qualquer convexo K tal que A K.
Deni c ao 3.1.4
Se K e um conjunto convexo, f : K IR, e uma fun c ao convexa se para
todo x, y K, [0, 1],
f(x + (1 )y) f(x) + (1 )f(y).
Deni c ao 3.1.5
Se K e um conjunto convexo, denominamos epigrafo de f : K IR ao
conjunto
(x, y) IR
n
IR [ x K, y f(x).
Teorema 3.1.6 A fun c ao f : K IR e convexa se, e somente se, o epigrafo
de f e convexo.
Prova: Suponhamos que f seja convexa e tomemos (x, x), (y, y) pontos
do epigrafo de f. Para [0, 1], como K e convexo, x + (1 )y K.
Agora, x + (1 ) y f(x) + (1 )f(y) f(x + (1 )y) pois f e
convexa. Logo (x, x) + (1 )(y, y) = (x + (1 )y, x + (1 ) y)
pertence ao epigrafo de f para todo [0, 1]. Portanto, o epigrafo e
convexo.
Suponhamos agora que f n ao seja convexa. Ent ao existem x, y K tais
que f(x + (1 )y) > f(x) + (1 )f(y) para algum [0, 1]. Assim,
(x, f(x)) e (y, f(y)) s ao pontos do epigrafo de f. Ent ao
(x, f(x)) + (1 )(y, f(y)) = (x + (1 )y, f(x) + (1 )f(y)) ,
28 CHAPTER 3. CONVEXIDADE E DUALIDADE
onde x + (1 )y K mas f(x) + (1 )f(y) < f(x + (1 )y). Por-
tanto, (x, f(x)) + (1 )(y, f(y)) n ao pertence ao epigrafo de f. Logo o
epigrafo de f n ao e convexo. QED
Fun c oes convexas diferenci aveis podem ser caracterizadas pelo teorema a
seguir:
Teorema 3.1.7
Sejam K IR
n
aberto e convexo, f : K IR, f C
1
(K). Ent ao f e
convexa se, e somente se, f(y) f(x)+f(x)
T
(yx), para todo x, y K.
Prova: Seja f convexa como na hip otese do teorema, x, y K, [0, 1].
Logo, f(y + (1 )x) f(y) + (1 )f(x). Portanto,
f(x +(y x)) f(x) (f(y) f(x)) .
Ent ao
lim
0
f(x +(y x)) f(x)

f(y) f(x) .
Logo,
f(x)
T
(y x) f(y) f(x).
Dessa maneira, provamos que
f(x) +f(x)
T
(y x) f(y) para todo x, y K.
Reciprocamente, se f(y) f(x) + f(x)
T
(y x) para todo x, y K,
chamando z

= y + (1 )x, temos
f(x) f(z

) +f(z

)
T
(x z

)
f(y) f(z

) +f(z

)
T
(y z

) .
Portanto,
(1 )f(x) +f(y) (1 )(f(z

) +f(z

)
T
(x z

))
+ (f(z

) +f(z

)
T
(y z

))
= f(z

) +f(z

)
T
(x z

x +z

+y z

)
= f(z

) +f(z

)
T
(y + (1 )x z

)
= f((1 )x +y) .
QED
3.1. CONVEXIDADE 29
Outro resultado util, que estabelece o n ao decrescimento da derivada dire-
cional para fun c oes convexas, e apresentado a seguir.
Teorema 3.1.8
Seja K IR
n
aberto e convexo, f : K IR, f C
1
(K). Ent ao, f convexa
se, e somente se, para todo x, y K,
f(x)
T
(y x) f(y)
T
(y x) .
Exerccio 3.3: Demonstrar o Teorema 3.1.8.
As fun c oes convexas com duas derivadas contnuas s ao caracterizadas pelo
seguinte resultado.
Teorema 3.1.9
Seja K IR
n
aberto e convexo, f : K IR e f C
2
(K). Ent ao f e
convexa se, e somente se,
2
f(x) 0 para todo x K.
Exerccio 3.4: Demonstrar o Teorema 3.1.9.
Deni c ao 3.1.10.
Se K e um conjunto convexo, f : K IRe uma fun c ao estritamente convexa
se, para todo x, y K, (0, 1),
f(x + (1 )y) < f(x) + (1 )f(y) .
Exerccio 3.5: Provar os teoremas 3.1.73.1.9, com as modica c oes ade-
quadas, substituindo convexa por estritamente convexa.
Teorema 3.1.11
Seja f : K IR convexa e a IR. Ent ao o conjunto de nvel x K [ f(x) a
e convexo.
Exerccio 3.6: Demonstrar o Teorema 3.1.11.
Deni c ao 3.1.12.
Chamamos de problema de programa c ao convexa a
Minimizar f(x)
sujeita a x K
30 CHAPTER 3. CONVEXIDADE E DUALIDADE
onde K e um conjunto convexo e f e uma fun c ao convexa.
Teorema 3.1.17
Em um problema de programa c ao convexa, todo minimizador local e global.
O conjunto dos minimizadores e convexo. Se f e estritamente convexa, n ao
pode haver mais de um minimizador.
Prova: Suponhamos que x

e uma solu c ao local n ao global do problema


de programa c ao convexa . Ent ao existe x K tal que f(x) < f(x

). Para
[0, 1], consideremos x

= (1 )x

+ x. Pela convexidade de K,
x

K. Agora, pela convexidade de f,


f(x

) (1 )f(x

) +f(x) = f(x

) +(f(x) f(x

)) < f(x

).
Assim, para sucientemente pr oximo de 0, x

torna-se arbitrariamente
pr oximo de x

, mas f(x

) < f(x

). Portanto, x

n ao poderia ser um mini-


mizador local do problema de programa c ao convexa.
Chamemos de S o conjunto dos minimizadores globais do problema. Sejam
x, y S. Ent ao f(x) = f(y) f(x + (1 )y), [0, 1]. Pela
convexidade de f,
f(x + (1 )y) f(x) + (1 )f(y) = f(y) +(f(x) f(y)) = f(y).
Logo, x + (1 )y S e portanto S e convexo.
Suponhamos agora que existam x, y S, x ,= y e f seja estritamente
convexa. Para [0, 1], f(x + (1 )y) f(x) = f(y) pois x, y s ao
minimizadores globais, mas f(x + (1 )y) < f(x) = f(y) pelo fato de
f ser estritamente convexa. Temos assim a contradi c ao desejada e a prova
est a completa. QED
No pr oximo teorema consideramos o problema geral de programa c ao n ao
linear (2.4.1). Suponhamos que a fun c ao objetivo f e as fun c oes que de-
nem as restri c oes de desigualdade g
i
, i = 1, . . . , p s ao convexas e que as
h
i
, i = 1, m s ao lineares, isto e, h
i
(x) = a
T
i
x + b
i
. Portanto, pelos teoremas
3.1.3 e 3.1.5, o conjunto = x IR
n
[ h(x) = 0, g(x) 0 e convexo e o
problema de programa c ao n ao linear (2.4.1) e um problema de programa c ao
convexa. Com certo abuso de linguagem, ao dizer que (2.4.1) e um problema
de programa c ao convexa estaremos sempre supondo que as g
i
s ao convexas
e as h
i
s ao lineares. O objetivo do teorema e mostrar que, neste caso, as
condi c oes KKT dadas pelo Teorema 2.4.1 s ao sucientes para caracterizar
3.1. CONVEXIDADE 31
um minimizador global.
Teorema 3.1.14
Se o problema de minimiza c ao com restri c oes de igualdade e desigualdade
(2.4.1) e um problema de programa c ao convexa e em x

valem as condi c oes


KKT gerais (Teorema 2.4.1), ent ao x

e minimizador global (a regularidade


n ao e necess aria).
Prova: Denimos = x IR
n
[ h(x) = 0, g(x) 0 e tomamos x ,
x ,= x

. Se IR
n
e IR
p
s ao os multiplicadores dados pelo Teorema
2.4.1, temos:
f(x

) +
m

i=1

i
h
i
(x

) +
p

i=1

i
g
i
(x

) = 0 (3.1.1)
h(x

) = 0 (3.1.2)

i
g
i
(x

) = 0 , i = 1, . . . , p (3.1.3)

i
0 , i = 1, . . . , p (3.1.4)
g
i
(x

) 0 , i = 1, . . . , p (3.1.5)
Agora, f(x) f(x) +
m

i=1

i
h
i
(x) +
p

i=1

i
g
i
(x) pois h
i
(x) = 0, i = 1, . . . , m,
g
i
(x) 0, i = 1, . . . , p e vale (3.1.4).
Aplicando a desigualdade do Teorema 3.1.7 ` as fun c oes f, h
i
e g
i
segue-se
que
f(x) f(x

) +f(x

)
T
(x x

) +
m

i=1

i
(h
i
(x

) +h
i
(x

)
T
(x x

))
+
p

i=1

i
(g
i
(x

) +g
i
(x

)
T
(x x

)) .
Por (3.1.1) - (3.1.5) temos f(x) f(x

), ou seja, x

e minimizador global
de (2.4.1). QED
32 CHAPTER 3. CONVEXIDADE E DUALIDADE
3.2 Dualidade
Consideremos o problema geral de programa c ao n ao linear (problema pri-
mal):
Minimizar f(x)
sujeita a h(x) = 0
g(x) 0
(3.2.1)
onde f : IR
n
IR, h : IR
n
IR
m
, g : IR
n
IR
p
e f, h, g C
1
(IR
n
).
Deni c ao 3.2.1
Chamamos Problema Dual (de Wolfe) (ver [199]) de (3.2.1) ao problema
Maximizar (x, , )
sujeita a
x
(x, , ) = 0
0
(3.2.2)
onde (x, , ) = f(x) +
m

i=1

i
h
i
(x) +
p

i=1

i
g
i
(x).
Reescrevendo (3.2.2), temos:
Maximizar f(x) +
m

i=1

i
h
i
(x) +
p

i=1

i
g
i
(x)
sujeita a f(x) +
m

i=1

i
h
i
(x) +
p

i=1

i
g
i
(x) = 0
0
(3.2.3)
Antes de estabelecer propriedades do Dual de Wolfe, calculamos os proble-
mas duais de problemas cl assicos de otimiza c ao.
Exemplo 3.2.2: Programa c ao Linear.
Consideremos o problema primal de programa c ao linear no seguinte formato:
Minimizar c
T
x
sujeita a Ax b
(3.2.4)
onde A IR
pn
, A
T
= (a
1
, . . . , a
p
) , a
i
IR
n
, i = 1, . . . , p.
Neste caso, (x, , ) = (x, ) = c
T
x+
p

i=1

i
(a
T
i
xb
i
) = c
T
x+
T
(Axb).
Logo,
x
(x, ) = c +A
T
.
3.2. DUALIDADE 33
Portanto o problema dual de (3.2.4) e dado por:
Maximizar c
T
x +
T
(Ax b)
sujeita a A
T
+c = 0
0 .
(3.2.5)
Utilizando A
T
+ c = 0, podemos eliminar a dependencia na vari avel x na
fun c ao objetivo. Assim, (3.2.5) ca:
Maximizar b
T

sujeita a A
T
+c = 0
0 .
(3.2.6)
Substituindo por IR
p
, reescrevemos (3.2.6) da seguinte forma:
Maximizar b
T

sujeita a A
T
= c
0 .
(3.2.7)
Podemos observar que, enquanto o problema primal tinha n vari aveis e p
restri c oes de desigualdade, o dual tem p vari aveis, que devem ser negativas, e
n restri c oes de igualdade. Se o problema primal e levado ` a forma padr ao da
programa c ao linear, ele passa a ter n +p vari aveis (positivas) e p restri c oes
lineares de igualdade. Esta an alise ajuda a decidir em que situa c oes usar o
dual pode ser conveniente.
Exerccio 3.7: Encontrar o dual de
Maximizar c
T
x
sujeita a Ax = b
x 0 .
Exemplo 3.2.3: Programa c ao quadr atica
Consideremos agora o problema geral de programa c ao quadr atica como
sendo o problema primal:
Minimizar
1
2
x
T
Gx +c
T
x
sujeita a Ax = b
Cx d
(3.2.8)
onde A IR
mn
, C IR
pn
e G simetrica n ao singular.
34 CHAPTER 3. CONVEXIDADE E DUALIDADE
Ent ao
(x, , ) =
1
2
x
T
Gx +c
T
x +
T
(Ax b) +
T
(Cx d)
e
x
(x, , ) = Gx +c +A
T
+C
T
.
Assim, o problema dual de (3.2.8) e
Maximizar
1
2
x
T
Gx +c
T
x +
T
(Ax b) +
T
(Cx d)
sujeita a Gx +c +A
T
+C
T
= 0
0 .
(3.2.9)
Substituindo x = G
1
(c + A
T
+ C
T
), podemos reescrever (3.2.9) da
seguinte forma:
Maximizar
1
2
(c +A
T
+C
T
)
T
G
1
(c +A
T
+C
T
) b
T
d
T

sujeita a 0 .
(3.2.10)
Neste exemplo vemos que o problema dual pode ter uma estrutura diferente
do problema primal, neste caso mais simples. A simplicidade do problema
dual est a associada ` a possibilidade de calcular G
1
v. Essa tarefa pode ser
muito difcil se G n ao tem uma estrutura favor avel, mas muito f acil em casos
bastante comuns nas aplica c oes. Por exemplo, se o problema primal consiste
em encontrar a proje c ao de um ponto dado no conjunto factvel de (3.2.8),
a matriz G e a identidade.
Observamos que o dual (3.2.10) est a bem denido se Ge uma matriz n ao sin-
gular. Isso n ao signica que sempre seja equivalente ao primal. Para tanto,
precisaremos que G seja denida positiva, o que resultar a como corol ario dos
resultados seguintes. Em (3.2.2) e (3.2.3) denimos dualidade sem estabele-
cer conex oes entre o primal e o dual. Com tal generalidade, os problemas
primal e dual podem n ao ser equivalentes. Agora estudaremos rela c oes entre
os dois problemas usando hip oteses de convexidade.
Lembramos que chamamos condi c oes Karush-Kuhn-Tucker (KKT) ` as dadas
por (2.4.2)-(2.4.6), isto e:
f(x) +

m
i=1

i
h
i
(x) +

p
i=1

i
g
i
(x) = 0
h(x) = 0

i
g
i
(x) = 0 , i = 1, . . . , p

i
0 , i = 1, . . . , p
g
i
(x) 0 , i = 1, . . . , p
3.2. DUALIDADE 35
Um ponto KKT e um ponto onde as condi c oes KKT s ao satisfeitas.
Teorema 3.2.5
Suponhamos que o problema (3.2.1) e tal que as fun c oes f e g
i
, i = 1, . . . , p
s ao convexas em IR
n
e que x

e um ponto KKT com os multiplicadores


correspondentes

. Ent ao (x

) e solu c ao do dual (3.2.3).


Alem disso, o valor da fun c ao objetivo primal e dual coincidem, isto e
f(x

) = (x

).
Prova: Sabemos que
f(x

) +
m

i=1
[

]
i
h
i
(x

) +
p

i=1
[

]
i
g
i
(x

) = 0 ,
com

0. Das condi c oes KKT se deduz que f(x

) = (x

).
Logo, (x

) e um ponto factvel para o problema dual (3.2.3). Supon-


hamos que (x, , ) seja um outro ponto factvel para (3.2.3). Ent ao:
(x

) = f(x

) +
m

i=1
[

]
i
h
i
(x

) +
p

i=1
[

]
i
g
i
(x

)
= f(x

)
f(x

) +
m

i=1

i
h
i
(x

) +
p

i=1

i
g
i
(x

)
= (x

, , ).
Como (3.2.1) e um problema de programa c ao convexa, e f acil ver que ,
como fun c ao de x, e convexa para 0. Logo, pelo Teorema 3.1.11 e pela
factibilidade dual de (x, , ) segue que
(x

, , ) (x, , ) +
x
(x, , )
T
(x

x) = (x, , ) .
Isto completa a prova. QED
Alguns coment arios sobre o Teorema 3.2.5 s ao pertinentes. Este resultado
nos assegura que, se um problema de programa c ao convexa tem um ponto
que satisfaz as condi c oes KKT (que portanto, pelo Teorema 3.1.18, ser a um
minimizador global), esse ponto necessariamente vai ser um maximizador
global do Dual de Wolfe. Isso n ao signica que dado um problema de pro-
grama c ao convexa, uma solu c ao global do dual corresponda for cosamente a
36 CHAPTER 3. CONVEXIDADE E DUALIDADE
uma solu c ao do primal. No entanto, algumas rela c oes adicionais entre pri-
mal e dual podem ser estabelecidas.
Teorema 3.2.6
Suponhamos que (3.2.1) e um problema de programa c ao convexa. Se z e
um ponto factvel de (3.2.1) e (x, , ) e um ponto factvel do problema dual
correspondente (3.2.2), ent ao
f(z) (x, , ) .
Prova: Pelo Teorema 3.1.11 aplicado a f e g
i
, factibilidade de z em rela c ao
a (3.2.1) e de (x, , ) em rela c ao a (3.2.2), temos que
f(z) f(x) f(x)
T
(z x)
=
_
m

i=1

i
h
i
(x) +
p

i=1

i
g
i
(x)
_
T
(z x)

m

i=1

i
[h
i
(z) h
i
(x)] +
p

i=1

i
[g
i
(z) g
i
(x)]

i=1

i
h
i
(x) +
p

i=1

i
g
i
(x) .
Portanto f(z) f(x)+
m

i=1

i
h
i
(x)]+
p

i=1

i
g
i
(x) = (x, , ), como queriamos
provar. QED
O Teorema 3.2.6 implica que, se a regi ao factvel do primal (3.2.1) e n ao vazia
mas o problema primal e ilimitado inferiormente, necessariamente a regi ao
factvel do dual e vazia. Reciprocamente, se o dual e um problema factvel
mas ilimitado superiormente, ent ao a regi ao factvel do primal e vazia. Deste
resultado tambem se deduz que qualquer ponto factvel do dual fornece uma
cota inferior para o valor da fun c ao objetivo numa possvel solu c ao do pri-
mal. Esse tipo de informa c ao pode ser muito util na pr atica.
Exerccio 3.8: Supondo que o primal tem apenas restri c oes lineares, que
sua regi ao factvel e vazia e que a regi ao factvel do dual e n ao vazia, provar
que o supremo da fun c ao objetivo do dual e +. (Ver [199].)
3.2. DUALIDADE 37
Exerccio 3.9: Considere o problema denido por n = 1, m = 0, p = 1,
f(x) = 0 e g(x) = e
x
. Mostrar que o primal e infactvel mas o dual tem
solu c ao nita.
Exerccio 3.10: Estabelecer as rela c oes entre o dual de Wolfe e o seguinte
problema
Maximizar F(, ) sujeita a 0,
onde F(, ) e o mnimo de (x, , ), em rela c ao a x IR
n
.
36 CHAPTER 3. CONVEXIDADE E DUALIDADE
Chapter 4
Minimiza cao de quadraticas
Uma quadr atica e um polin omio em n vari aveis com termos ate segunda
ordem. A minimiza c ao dessas fun c oes tem interesse pelo grande n umero de
aplica c oes que recaem nesse formato. Por exemplo, quando para um con-
junto de dados empricos se postula uma rela c ao linear com certos par ametros
desconhecidos, o problema de ajustar esses par ametros costuma ser resolvido
atraves da minimiza c ao da soma dos quadrados dos erros, nesse caso, uma
fun c ao quadr atica. A soma de quadrados n ao e melhor que outras medidas
globais do erro, em termos de qualidade do ajuste. No entanto, e a me-
dida cuja minimiza c ao e mais simples do ponto de vista numerico. De fato,
a minimiza c ao de quadr aticas e um dos problemas mais f aceis na arte da
otimiza c ao, fazendo tambem com que seja utilizado freq uentemente como
subproblema auxiliar em algoritmos para resolver problemas mais complica-
dos.
4.1 Quadraticas sem restri c oes
Dada a matriz simetrica G IR
nn
, o vetor b IR
n
e a constante c IR, o
problema tratado nesta se c ao e:
Minimizar q(x)
1
2
x
T
Gx +b
T
x +c . (4.1.1)

E f acil ver que o gradiente de q e uma fun c ao vetorial linear e que a Hessiana
e uma matriz constante:
37
38 CHAPTER 4. MINIMIZAC

AO DE QUADR

ATICAS
Lema 4.1.1
Se q(x) =
1
2
x
T
Gx+b
T
x+c , ent ao q(x) = Gx+b e
2
q(x) = G para todo
x IR
n
.
Exerccio 4.1: Identicar G, b e c nos diferentes casos:
(a) q(x) = 3x
2
1
2x
1
x
2
+x
1
x
3
x
2
3
+x
3
x
1
+ 5
(b) q(x) = x
2
1
x
2
2
+ 4x
1
x
3
+ 2x
2
x
3
+x
1
+x
2
8
(c) q(x) = 2x
1
x
2
+x
1
+x
2
.
Exerccio 4.2: Demonstrar o Lema 4.1.1.
Os pontos estacion arios de (4.1.1) s ao aqueles onde se anula o gradiente,
portanto, de acordo com o Lema 4.1.1, s ao as solu c oes do sistema linear
Gx +b = 0. (4.1.2)
Sua existencia ou unicidade est a determinada pelas propriedades desse sis-
tema.
Lema 4.1.2
(a) O problema (4.1.1) admite algum ponto estacion ario se, e somente se,
b (G), onde (G) e o espa co coluna de G.
(b) O problema (4.1.1) admite um unico ponto estacion ario se, e somente
se, G e n ao singular.
Exerccio 4.3: Demonstrar o Lema 4.1.2.
A equa c ao dos pontos estacion arios Gx + b = 0 pode ter uma, innitas ou
nenhuma solu c ao. Se (4.1.2) n ao tem solu c ao, ou seja, b n ao pertence ao
espa co coluna de G, ent ao (4.1.1) n ao admite nenhum minimizador, local
ou global. Esse e o caso, por exemplo, quando q e uma fun c ao linear n ao
constante (G = 0 e b ,= 0). Se (4.1.2) tem solu c ao unica, essa solu c ao ser a
o unico ponto estacion ario de (4.1.1). No entanto, ele pode ser tanto um
minimizador, como maximizador ou ponto sela. Finalmente, se G tem
innitas solu c oes, o que acontece quando G e singular e b est a no seu espa co
coluna, todas elas ser ao pontos estacion arios e, como veremos, do mesmo
tipo.

E interessante observar que um problema com innitas solu c oes (G
singular e b (G)) pode ser transformado em um problema sem solu c ao
por uma perturba c ao arbitrariamente pequena no vetor b. Por exemplo, o
sistema linear 0x+0 = 0 tem IR
n
como conjunto de solu c oes, mas o sistema
0x + = 0 e incompatvel para qualquer ,= 0. Isso mostra que, muitas
4.1. QUADR

ATICAS SEM RESTRIC



OES 39
vezes, e difcil distinguir as situa c oes sem solu c ao e innitas solu c oes.
Com efeito, devido a erros de arredondamento, pode ser que o vetor b que,
na realidade, estava no espa co coluna de G, que fora desse subespa co
fazendo que um sistema com innitas solu c oes aparente ser incompatvel
nos c alculos numericos. Tambem e possvel que uma matriz G singular
torne-se inversvel , por perturba c oes de arredondamento, transformando
um sistema incompatvel, ou indeterminado, em um problema com solu c ao
unica. Isso mostra que a situa c ao em que G e claramente n ao singular,
de maneira que pequenas perturba c oes n ao alteram essa condi c ao, e muito
mais confort avel do ponto de vista da seguran ca dos c alculos numericos.
Usando resultados de convexidade do Captulo 3 e as condi c oes de otimal-
idade de segunda ordem do Captulo 2, podemos classicar facilmente os
pontos estacion arios de (4.1.1). Com efeito, se x

e um minimizador local,
necessariamente teremos G =
2
q(x

) 0. Por outro lado, se G 0, temos


que a Hessiana
2
q(x) e semidenida positiva para todo x IR
n
e, em con-
seq uencia, q e uma fun c ao convexa. Portanto, se G 0 e x

e um ponto
estacion ario, necessariamente ser a um minimizador global. Como o mesmo
tipo de raciocnio pode ser feito para maximizadores, deduzimos que toda
quadr atica tem um unico tipo de ponto estacion ario: minimizadores globais
ou maximizadores globais ou ainda pontos sela, que n ao s ao maximizadores
nem minimizadores locais. A prova do seguinte lema mostra que, devido ` a
simplicidade das fun c oes quadr aticas, e f acil obter as conclus oes acima sem
apelar para os resultados de convexidade.
Lema 4.1.3
Se G 0 e x

e ponto estacion ario de (4.1.1), ent ao x

e minimizador
global de (4.1.1).
Prova: Seja x

ponto estacion ario de (4.1.1). Ent ao b = Gx

. Logo,
q(x) =
1
2
x
T
Gx +b
T
x +c =
1
2
x
T
Gx x
T

Gx +c
=
1
2
(x x

)
T
G(x x

)
1
2
x
T

Gx

+c
1
2
x
T

Gx

+c
=
1
2
x
T

Gx

x
T

Gx

+c =
1
2
x
T

Gx

+b
T
x

+c = q(x

) .
Portanto, q(x) q(x

) para todo x, ou seja, x

e minimizador global de
(4.1.1). QED
Lema 4.1.4
40 CHAPTER 4. MINIMIZAC

AO DE QUADR

ATICAS
Se (4.1.1) admite um minimizador local, ent ao G 0.
Corol ario 4.1.5
Todo minimizador local de (4.1.1) e global.
Corol ario 4.1.6
Se a matriz G e indenida, ent ao a quadr atica q n ao tem extremos locais.
Exerccio 4.4: Demonstrar o Lema 4.1.4 e os Corol arios 4.1.5 e 4.1.6 sem
usar as condi c oes de otimalidade do Captulo 2 nem os resultados de con-
vexidade do Captulo 3.
Um caso especial muito importante da minimiza c ao de quadr aticas sem re-
stri c oes e o problema de quadrados mnimos linear. Consiste em, dada uma
matriz A IR
mn
e um vetor b IR
m
, encontrar x IR
n
de maneira que
Ax se aproxime de b no sentido dos quadrados mnimos. Isto signica que
x deve ser solu c ao de
Minimizar
1
2
|Ax b|
2
2
. (4.1.3)
Em (4.1.3), a fra c ao
1
2
n ao cumpre nenhum papel, exceto simplicar a ex-
press ao do gradiente e da Hessiana. O problema e equivalente a minimizar
q
2
(x) |Axb|
2
, no entanto, a formula c ao com a norma ao quadrado e pre-
fervel, devido a q
2
n ao ser diferenci avel nos pontos x em que [Ax b]
i
= 0.
No entanto, (4.1.3) n ao e equivalente a minimizar outras normas de Ax b.
Em muitos ajustes de modelos e necess ario estimar par ametros x de maneira
que as observa c oes se aproximem bastante do modelo te orico (Ax b). A
escolha da norma euclidiana para medir o grau de aproxima c ao se deve,
na maioria dos casos, a que essa norma (ao quadrado) fornece o problema
de otimiza c ao mais simples associado ao ajuste desejado. Algumas pro-
priedades b asicas do problema de quadrados mnimos linear s ao enunciadas
no seguinte teorema.
Teorema 4.1.7
Se q(x) =
1
2
|Ax b|
2
2
, onde A IR
mn
, m n e b IR
m
, ent ao
(a) q(x) = A
T
(Ax b);
(b)
2
q(x) = A
T
A 0;
(c) As equa c oes normais A
T
Ax = A
T
b (q(x) = 0) sempre tem solu c ao.
Se posto (A) = n, a solu c ao e unica e, se posto (A) < n, h a innitas
solu c oes.
4.1. QUADR

ATICAS SEM RESTRIC



OES 41
Exerccio 4.5: Demonstrar o Teorema 4.1.7.
4.1.1 Usando fatora c oes
A forma mais rude de resolver (4.1.1) parte de considerar a decomposi c ao
espectral de G. (Ver, por exemplo, [96].) Ao mesmo tempo, ela nos d a toda
a informa c ao qualitativa relevante sobre o problema. Com efeito, como G e
uma matriz simetrica, existe uma matriz ortogonal Q (QQ
T
= Q
T
Q = I),
e uma matriz diagonal tais que
G = QQ
T
. (4.1.4)
Os autovalores de G,
1
, . . . ,
n
, s ao os elementos da diagonal e os autove-
tores correspondentes s ao as colunas de Q. Assim, a matriz Ge semidenida
positiva se todas as entradas de s ao n ao negativas. Se todos os elementos
da diagonal de s ao maiores que 0, e G s ao denidas positivas. Por-
tanto, o exame da diagonal fornece a informa c ao sobre o tipo de pontos
estacion arios que o problema (4.1.1) pode ter. Se estamos interessados em
minimizadores, e 0, analisamos o sistema linear Gx + b = 0. Usando
(4.1.4), este sistema toma a forma
QQ
T
x = b, (4.1.5)
que deriva, multiplicando ambos membros por Q
T
= Q
1
, em
z = Q
T
b (4.1.6)
onde x = Qz. Agora, (4.1.6) tem solu c ao se, e somente se, um possvel zero
na diagonal de corresponde a uma coordenada nula do termo independente
Q
T
b. Se h a um zero na diagonal de , digamos
i
, tal que [Q
T
b]
i
,= 0
o sistema (4.1.5) n ao tem solu c ao, e, conseq uentemente, (4.1.1) carece de
pontos estacion arios. (Lembremos, porem, por um instante, a advertencia
numerica feita acima sobre a falta de estabilidade de conclus oes deste tipo.)
Se todos os elementos de s ao estritamente positivos, (4.1.5) tem solu c ao
unica, e o vetor x calculado atraves de (4.1.6) e a mudan ca de vari aveis
x = Qz e o minimizador global de (4.1.1). Por m, se o sistema e compatvel,
mas existe i tal que
i
= 0 e [Q
T
b]
i
= 0, teremos innitas solu c oes, todas
elas minimizadores globais de (4.1.1). Nesse caso, qualquer que seja o valor
de z
i
escolhido, o vetor x correspondente resolver a (4.1.5) e o conjunto dos
x varridos dessa maneira formar a uma variedade am em IR
n
de dimens ao
igual ao n umero de zeros da diagonal de . O leitor vericar a que o vetor
42 CHAPTER 4. MINIMIZAC

AO DE QUADR

ATICAS
de norma mnima dessa variedade am resulta de escolher z
i
= 0 toda vez
que
i
= 0 em (4.1.6).
Quando n ao existem minimizadores do problema (4.1.1), dado um x ar-
bitr ario pertencente a IR
n
, e util determinar uma dire c ao d IR
n
tal que
lim
t
q(x +td) = . (4.1.7)
Se soubermos achar uma dire c ao que satisfa ca (4.1.7) poderemos dizer que
sempre somos capazes de resolver (4.1.1), ate quando o mnimo e (e
o minimizador e x + d). Analisemos, pois, esse problema. Se algum
autovalor de G, digamos
i
, e menor que 0, tomamos d como o autovetor
correspondente (a coluna i da matriz Q). Ent ao,
q(x +td) =
1
2
(x +td)
T
G(x +td) +b
T
(x +td) +c
= q(x) +tq(x)
T
d +
1
2
t
2
d
T
Gd
= q(x) +tq(x)
T
d +
1
2

i
t
2
.
Portanto, q(x+td) como fun c ao de t e uma par abola c oncava (coeciente de
segunda ordem negativo) e tende a tanto para t quanto para
t . Esta escolha de d n ao e a unica que satisfaz (4.1.7). Com
efeito, qualquer dire c ao que cumprisse d
T
Gd < 0 teria a mesma propriedade.
Dire c oes que satisfazem a desigualdade d
T
Gd < 0 se dizem de curvatura neg-
ativa.
Consideremos agora o caso em que 0 mas existe
i
= 0 com [Q
T
b]
i
,= 0.
Tomemos, de novo, d a coluna i de Q. Portanto, b
T
d ,= 0 e d
T
Gd = 0.
Se b
T
d > 0, trocamos d por d, de maneira que sempre podemos supor
b
T
d < 0. Fazendo o mesmo desenvolvimento que no caso anterior, chegamos
a
q(x +td) = q(x) +tq(x)
T
d +
1
2
t
2
d
T
Gd
= q(x) +t(Gx +b)
T
d.
Mas d e um elemento do n ucleo de G, portanto x
T
Gd = 0 e
q(x +td) = q(x) +tb
T
d.
Logo, q(x + td) e uma reta com coeciente angular negativo e tende a
quando t .
4.1. QUADR

ATICAS SEM RESTRIC



OES 43
A decomposi c ao espectral resolve de maneira totalmente satisfat oria o prob-
lema (4.1.1). Porem, seu custo computacional e, freq uentemente, intoler avel,
e a procura de alternativas mais baratas e necess aria.
A maneira mais popular de resolver (4.1.1) se baseia na fatora c ao de Cholesky
de G. Tal procedimento funciona e e est avel apenas quando G e denida
positiva. Nesse caso, a matriz G pode ser decomposta como G = LDL
T
,
onde L IR
nn
e triangular inferior com diagonal unit aria e D IR
nn
e
uma matriz diagonal com elementos positivos. A maneira de encontrar L e
D, os fatores de Cholesky, e dada pelo seguinte algoritmo:
Algoritmo 4.1.8 - Fatora c ao de Cholesky.
Chamemos g
ij
aos elementos de G, l
ij
aos de L e d
ij
aos de D. Deninindo,
primeiro, d
11
= g
11
, as demais entradas de D e L s ao calculadas pelo seguinte
ciclo.
Para j = 2 a n fa ca:
d
jj
= g
jj

j1

k=1
d
kk
l
2
jk
Se j = n, termine. Se j < n, para i = j + 1 a n fa ca:
l
ij
=
1
d
jj
_
_
g
ij

j1

k=1
d
kk
l
jk
l
ik
_
_
.
O algoritmo de Cholesky termina, produzindo D > 0 (e e numericamente
est avel) se, e somente se, G e denida positiva. De fato, a maneira mais
econ omica de averiguar se uma matriz simetrica e denida positiva e tentar
fazer sua fatora c ao de Cholesky. Se G e singular ou indenida, em algum
momento aparece um d
jj
menor ou igual a 0 no c alculo dessas entradas.
Nos casos em que a fatora c ao de Cholesky de G e completada com sucesso,
o unico minimizador de (4.1.1) e obtido resolvendo LDL
T
x = b, processo
que pode ser decomposto em tres passos:
(a) resolver Ly = b;
(b) resolver Dz = y;
(c) resolver L
T
x = z.
Os tres passos s ao computacionalmente simples: (a) e (c) consistem em
resolver sistemas lineares triangulares, e (b) em dividir cada coordenada de
y pela entrada diagonal d
ii
. Acrescentando a este custo computacional o de
fatorar a matriz pelo Algoritmo 4.1.8, a minimiza c ao da quadr atica consome
aproximadamente n
3
/6 somas e produtos.
Quando, no Algoritmo 4.1.8, detectamos que G n ao e denida positiva,
podemos apelar para o processo muito mais custoso de calcular a decom-
44 CHAPTER 4. MINIMIZAC

AO DE QUADR

ATICAS
posi c ao espectral. Outras alternativas, baseadas em fatora c oes mais baratas
que a espectral, foram sugeridas na literatura. Ver, por exemplo, a fatora c ao
Bunch-Parlett em [26]. Para efeitos pr aticos, quando se quer resolver (4.1.7)
e, quase sempre, suciente usar o seguinte problema auxiliar:
Minimizar q(x +d) sujeita a |d|
2
, (4.1.8)
onde e um n umero grande. Este problema pode ser resolvido por meio
de um n umero n ao excessivo de fatora c oes de Cholesky, como veremos na
Se c ao 4.2.
4.1.2 O caso esparso
A an alise te orica feita na sub-se c ao anterior e v alida independentemente da
estrutura da matriz G mas, no Algoritmo 4.1.8, usamos, implicitamente, a
suposi c ao de que todos as entradas de G e L s ao armazenadas. Portanto,
esse algoritmo usa mais de n
2
posi c oes de mem oria. Quando Ge esparsa, isto
e, a grande maioria de suas entradas s ao nulas, e comum que a matriz L de
sua fatora c ao de Cholesky tambem o seja.
`
As vezes, uma permuta c ao con-
veniente de linhas e colunas de G (que corresponde a re-ordenar as vari aveis
x
i
) faz aumentar consideravelmente o grau de esparsidade (ou diminuir a
densidade) do fator L. Ver, por exemplo, [62]. A fatora c ao de Cholesky
de matrizes esparsas procede da mesma maneira que o Algoritmo 4.1.8, mas
toma o cuidado de armazenar apenas os elementos n ao nulos de G e L, e
evita fazer opera c oes com zeros. Dessa maneira, n ao apenas a mem oria,
mas tambem o tempo computacional pode diminuir muito e a economia e
bastante signicativa quando n e grande. Agora, se a fatora c ao de Cholesky
falha, e nos interessa obter uma dire c ao que satisfa ca (4.1.7), apelar para
a fatora c ao espectral e quase sempre impossvel, porque a matriz Q desta
fatora c ao e geralmente densa, independentemente da esparsidade de G. No
entanto, ainda podemos obter uma dire c ao satisfat oria, em termos pr aticos,
usando o subprobema (4.1.8).
Exerccio 4.6: Obter um exemplo onde G e esparsa mas sua fatora c ao de
Cholesky e densa e um exemplo onde G e esparsa, sua fatora c ao de Cholesky
e esparsa mas sua fatora c ao espectral e densa.
4.1. QUADR

ATICAS SEM RESTRIC



OES 45
4.1.3 Metodos iterativos
Os metodos baseados em fatora c oes, chamados diretos, calculam a solu c ao de
(4.1.1) em um unico passo, atraves de um processo relativamente trabalhoso.
Os metodos iterativos, estudados nesta se c ao, procedem, pelo contr ario,
computando uma seq uencia de aproxima c oes x
k
IR
n
. A passagem de um
iterando para o seguinte se faz atraves de um conjunto de opera c oes geral-
mente barato e a solu c ao e obtida depois de um n umero nito de passos, ou
no limite. Existem v arias situa c oes nas quais se justica o uso de metodos
iterativos.
`
As vezes, o problema e sucientemente f acil e pouqussimas it-
era c oes do metodo podem fornecer uma aproxima c ao muito boa da solu c ao.
Nesse caso, minimizaramos a quadr atica com um custo muito baixo, em
contraste com os metodos baseados em fatora c oes, que tem um custo xo,
independentemente da diculdade do problema. Outras vezes, a precis ao
requerida para a solu c ao de (4.1.1) e moderada, e pode ser atingida com
poucos passos do metodo iterativo.
No entanto, a principal raz ao pela qual se utilizam metodos iterativos e
outra, e se deve a uma caracterstica da maioria desses metodos que n ao est a,
for cosamente, ligada ` a recursividade. Com efeito, no processo da fatora c ao
de uma matriz, precisamos usar, por um lado, a mem oria necess aria para
armazenar seus elementos e, por outro lado, a necess aria para armazenar os
fatores. Esta ultima e vari avel e pode exceder em muito a usada para guardar
os dados (embora, naturalmente, certo grau de superposi c ao e possvel).
Como vimos acima, no caso extremo, os fatores de uma matriz esparsa
podem ser densos. Alem disso, o tempo usado na fatora c ao cresce com o
n umero de elementos n ao nulos dos fatores. Uma estimativa grosseira e que o
tempo de fatora c ao e proporcional a n[L[, onde [L[ e o n umero de elementos
n ao nulos do fator. Logo, se n e muito grande e as condi c oes para a fatora c ao
n ao s ao favor aveis, tanto o tempo quanto a mem oria necess aria podem ser
intoler aveis. Por outro lado, a mem oria usada pelos metodos iterativos e, em
geral, muito moderada. Muitas vezes ela e apenas a usada para armazenar os
elementos n ao nulos de G e alguns vetores adicionais, mas, freq uentemente,
ate menos que isso e preciso. De fato, a opera c ao fundamental realizada por
muitos metodos e o produto Gv da matriz por um vetor vari avel. Quando
G tem uma lei de forma c ao, esse produto matriz-vetor pode ser programado
sem armazenamento explcito dos elementos de G, isto e, apenas gerando o
elemento [G]
ij
quando e necess ario us a-lo. Existem tambem metodos que
podem ser implementados com gera c ao de [G]
ij
apenas quando e necess ario,
e onde a opera c ao b asica n ao e o produto Gv.
O metodo dos gradientes conjugados [119] e o usado mais freq uentemente
46 CHAPTER 4. MINIMIZAC

AO DE QUADR

ATICAS
para resolver (4.1.1). Para motiv a-lo, falaremos antes do metodo de m axima
descida. Nesta se c ao, usaremos a nota c ao g(x) = q(x) = Gx + b e | |
ser a sempre a norma euclidiana. A dire c ao

d = g(x)/|g(x)| e a de m axima
descida a partir do ponto x. De fato, dada uma dire c ao unit aria d ( |d| = 1)
qualquer, a derivada direcional D
d
q(x) e tal que
D
d
q(x) = g(x)
T
d |g(x)| = D
d
q(x) .
Assim, dentre todas as dire c oes unit arias, a determinada por g(x) e a que
fornece a menor derivada direcional. Portanto, a fun c ao objetivo diminuir a
se avan carmos nessa dire c ao, e a m axima diminui c ao ser a obtida mini-
mizando, ao longo dela, a quadr atica q. Isto sugere o seguinte metodo
iterativo:
Algoritmo 4.1.9 - M axima descida
Seja x
0
IR
n
, x
0
arbitr ario.
Dado x
k
IR
n
, dena d
k
= g(x
k
) e, se possvel, calcule x
k+1
minimizador
de q(x
k
+d
k
), para 0.
Exerccio 4.7: Demonstrar que, se d
T
k
Gd
k
> 0, existe uma f ormula fechada
para o passo otimo no Algoritmo 4.1.9:
k
=
d
T
k
d
k
d
T
k
Gd
k
. Provar que as dire c oes
de duas itera c oes consecutivas s ao ortogonais.
Infelizmente, alem do metodo de m axima descida n ao produzir a solu c ao
do problema em um n umero nito de itera c oes, como as dire c oes consecuti-
vas por ele geradas s ao ortogonais, o metodo anda em ziguezague o que,
certamente, nunca e a melhor forma de se acercar de um objetivo. Este com-
portamento se torna mais desfavor avel ` a medida que as superfcies de nvel
de q se tornam mais alongadas, o que corresponde a um n umero de condi c ao
grande da matriz G. De fato, a velocidade de convergencia deste metodo
depende fortemente da raz ao entre o maior e o menor autovalor de G. Ver
[129]. Nos ultimos anos foram introduzidas varia c oes do metodo de m axima
descida onde se conserva o uso das dire c oes dos gradientes mas e mudado
o c alculo do passo, com substanciais ganhos de eciencia. Ver [8], [170], [80].
Vamos introduzir o metodo dos gradientes conjugados como uma especie
de metodo de m axima descida com mem oria. Assim como o metodo de
m axima descida minimiza q na dire c ao g(x
0
), depois na dire c ao de g(x
1
)
etc., o metodo de gradientes conjugados come car a minimizando q na dire c ao
4.1. QUADR

ATICAS SEM RESTRIC



OES 47
g(x
0
), mas depois o far a no plano gerado por g(x
0
) e g(x
1
), depois no
subespa co gerado por g(x
0
), g(x
1
) e g(x
2
) e assim por diante. Usando a
nota c ao Spanu
1
, . . . u

para o subespa co gerado pelos vetores u


1
, . . . , u

,
apresentamos no Algoritmo 4.1.10 uma primeira descri c ao geometrica do
metodo dos gradientes conjugados. Nenhuma hip otese adicional sobre a
matriz G e assumida alem da simetria.
Algoritmo 4.1.10
Come camos o algoritmo com x
0
IR
n
arbitr ario. Dado x
k
IR
n
, denimos
o
k
= Spang(x
0
), . . . , g(x
k
)
e
1
k
= x
0
+o
k
= v IR
n
[ v = x
0
+w com w o
k
.
Consideramos o problema
Minimizar q(x) sujeita a x 1
k
. (4.1.9)
Se (4.1.9) n ao tem solu c ao, o algoritmo p ara por inexistencia de mnimo.
Caso contr ario, denimos x
k+1
como uma das solu c oes de (4.1.9). (Mais
tarde, provaremos, que, de fato, (4.1.9) n ao pode ter mais de uma solu c ao.)
`
A primeira vista, o Algoritmo 4.1.10 pode parecer pouco pr atico, pois ex-
ige a minimiza c ao da quadr atica q(x) em variedades de dimens ao cada vez
maior. Logo, no ultimo caso, estaremos minimizando q em todo IR
n
(anal
de contas, nosso problema original). No entanto, veremos que os c alculos
necess arios para computar os sucessivos iterandos s ao surpreendentemente
simples e sem requerimentos de mem oria. Mais surpreendente e o fato de
que, recentemente, foram desenvolvidos metodos iterativos para resolver sis-
temas lineares n ao simetricos baseados na ideia desse algoritmo, onde os
c alculos das itera c oes n ao se simplicam, mas que, mesmo assim, parecem
ser extremamente ecientes. Ver [179].
Vamos analisar algumas propriedades do Algoritmo 4.1.10. Para simplicar
a nota c ao, escreveremos, de agora em diante, g
k
= g(x
k
) e s
k
= x
k+1
x
k
,
para todo k = 0, 1, 2, . . .. Da condi c ao de otimalidade para minimiza c ao
com restri c oes de igualdade, ou da condi c ao de primeira ordem por curvas,
dadas no Captulo 2, se deduz que, se x
k+1
est a denido, g
k+1
e ortogonal a
o
k
. Se, nesse caso, g
k+1
,= 0, deduzimos que g
k+1
n ao pode ser combina c ao
linear de g
0
, g
1
, . . . , g
k
, portanto, com breve raciocnio indutivo, conclumos
que o conjunto g
0
, g
1
, . . . , g
k+1
e linearmente independente.
48 CHAPTER 4. MINIMIZAC

AO DE QUADR

ATICAS
Por constru c ao, s
k
pertence a o
k
, o subespa co gerado por g
0
, g
1
, . . . , g
k
,
para todo k. Portanto,
Spans
0
, s
1
, . . . , s
k
o
k
.
Vamos provar, por indu c ao, que a inclus ao contr aria tambem e verdadeira.
Suponhamos, por hip otese indutiva, que
o
k
Spans
0
, s
1
, . . . , s
k
.
Provaremos que
o
k+1
Spans
0
, s
1
, . . . , s
k+1
. (4.1.10)
Se g
k+1
= 0 isto e trivial. Se g
k+1
,= 0, ent ao, como a derivada dire-
cional de q na dire c ao de g
k+1
e negativa, se deduz que, tomando z =
x
k+1
tg
k+1
1
k+1
com t positivo e sucientemente pequeno, podemos
obter q(z) < q(x
k+1
). Como x
k+2
e minimizador em 1
k+1
, temos que
q(x
k+2
) < q(x
k+1
). Isto implica que x
k+2
/ 1
k
, j a que x
k+1
era mini-
mizador em 1
k
. Portanto s
k+1
n ao pertence a o
k+1
. Isso implica que s
k+1
e
linearmente independente de g
0
, g
1
. . . g
k
. Portanto, o coeciente correspon-
dente a g
k+1
de s
k+1
como combina c ao de g
0
, . . . , g
k+1
n ao pode ser nulo.
Portanto, g
k+1
e combina c ao de g
0
, . . . , g
k
, s
k+1
. Logo, da hip otese indutiva
se obtem (4.1.10).
O resultado a seguir estabelece a termina c ao nita do Algoritmo 4.1.10. Mais
precisamente, provaremos que existem duas possibilidades: que, em algum
momento, o algoritmo pare por inexistencia de minimizador de q(x) em
1
k
ou que, em um n umero nito de passos (menor ou igual a n), encontre
uma solu c ao do sistema linear Gx + b = 0. Quando G e denida positiva
ou quando G e semidenida positiva mas b (G), os minimizadores dos
problemas (4.1.9) sempre existem. Portanto, nesses casos, o algoritmo ter-
mina com uma solu c ao de Gx +b = 0, que, necessariamente, e minimizador
global de (4.1.1). Se b / (G), n ao existem solu c oes de (4.1.2). Logo, nesse
caso, o teorema arma que o algoritmo p ara por inexistencia de mnimo de
(4.1.9) em alguma itera c ao k. Agora, se b (G) mas G tem algum au-
tovalor negativo, as duas possibilidades permanecem: que seja encontrada
uma itera c ao que resolva (4.1.2) (ponto crtico de (4.1.1)) ou que o algoritmo
pare por inexistencia de minimizadores de (4.1.9).
Teorema 4.1.12
Se o Algoritmo 4.1.10 n ao p ara por inexistencia de mnimo, ent ao existe
4.1. QUADR

ATICAS SEM RESTRIC



OES 49
k n tal que x
k
e uma solu c ao do sistema (4.1.2) (ponto estacion ario de
(4.1.1)).
Prova: Suponhamos que o Algoritmo 4.1.10 n ao pare por inexistencia de
mnimo. Ent ao, para cada itera c ao k em que g
k+1
e n ao nulo, temos que
dim(1
k+1
) = dim(1
k
) + 1.
Portanto, se chegamos a completar n itera c oes com gradientes n ao nulos,
teremos dim(1
n1
) = n. Isso implica que 1
n1
= IR
n
e, portanto, x
n
e
solu c ao de (4.1.1). QED
O resultado a seguir estabelece uma propriedade importante satisfeita pelos
incrementos s
k
, conhecida como G-conjuga c ao ou G-ortogonalidade. A de-
nomina c ao gradientes conjugados tem como origem o fato deste metodo se
basear em dire c oes G-conjugadas.
Teorema 4.1.13
Se x
k
e uma seq uencia gerada pelo Algoritmo 4.1.10, os incrementos s
k
=
x
k+1
x
k
, k = 0, 1, . . . s ao G-conjugados, isto e, para todo k 1 vale
s
T
j
Gs
k
= 0 , j = 0, 1, . . . , k 1. (4.1.11)
Mais ainda, se g
0
, g
1
, . . . , g
k1
s ao n ao nulos e x
k
est a bem denido, ent ao
s
T
j
Gs
j
> 0 para todo j = 0, 1, . . . , k 1. (4.1.12)
Prova: J a sabemos que g
k+1
o
k
= Spang
0
, g
1
, . . . , g
k
= Spans
0
, . . . , s
k
.
Ent ao,
g
k+1
s
j
, j = 0, 1, . . . , k. (4.1.13)
Agora, pela deni c ao de s
k
, e por c alculos elementares,
g
k+1
= g
k
+Gs
k
. (4.1.14)
Pre-multiplicando (4.1.14) por s
T
j
, para j = 0, . . . , k1, por (4.1.13) segue-se
(4.1.11).
Agora provaremos (4.1.12). Se g
j
,= 0, temos que x
j+1
est a bem denido,
e n ao pertence a 1
j1
, portanto s
j
,= 0 e g
T
j
s
j
< 0. Mas, pela deni c ao
de x
j+1
, t = 1 deve ser minimizador de q(x
j
+ ts
j
). Como esta fun c ao
50 CHAPTER 4. MINIMIZAC

AO DE QUADR

ATICAS
de t e uma par abola, para que exista um minimizador h a duas possibili-
dades, ou e constante ou o coeciente de segunda ordem e maior que 0. Mas
d
dt
q(x
j
+ ts
j
) = g
T
j
s
j
< 0 em t = 0, portanto a par abola n ao e constante.
Como o coeciente de segunda ordem e s
T
j
Gs
j
/2, segue-se (4.1.12). QED
Se x
k+1
est a bem denido, os resultados anteriores garantem que existem

0
,
1
. . .
k1
, tais que ,= 0,
s
k
=
0
s
0
+. . . +
k1
s
k1
g
k
,
e os incrementos s
j
s ao conjugados. Denindo d
k
= s
k
/, deduzimos que
existem escalares
0
, . . . ,
k1
tais que
d
k
= g
k
+
0
s
0
+. . . +
k1
s
k1
.
Pre-multiplicando ambos membros por s
T
j
G, j = 0, 1, . . . , k 1, e usando a
conjuga c ao dos s
j
, obtemos
0 = s
T
j
Gd
k
= s
T
j
Gg
k
+
j
s
T
j
Gs
j
,
ou seja, usando que s
T
j
Gs
j
> 0,

j
=
g
T
k
Gs
j
s
T
j
Gs
j
, para j = 0, 1, . . . , k 1.
Assim, como Gs
j
= g
j+1
g
j
, temos que g
T
k
Gs
j
= 0 para j = 0, 1, . . . , k 2.
Logo,
j
= 0 para j = 0, 1, . . . , k 2 e, conseq uentemente,
d
k
= g
k
+
k1
s
k1
= g
k
+
g
T
k
Gs
k1
s
T
k1
Gs
k1
s
k1
. (4.1.15)
Por m, como x
k+1
deve ser o minimizador de q ao longo da reta que passa
por x
k
, com dire c ao d
k
, obtemos
x
k+1
x
k
= s
k
=
d
T
k
g
k
d
T
k
Gd
k
d
k
. (4.1.16)
Antes de organizar um pouco melhor as f ormulas (4.1.15) e (4.1.16), vamos
reetir sobre o signicado das mesmas em rela c ao ao Algoritmo 4.1.10. O
fato mais relevante mostrado por essas express oes e que o c alculo de x
k+1
,
quando esse ponto est a bem denido, depende apenas do incremento anterior
s
k1
, e do gradiente atual g
k
. Ou seja, a minimiza c ao de q na variedade 1
k
4.1. QUADR

ATICAS SEM RESTRIC



OES 51
pode ser efetuada, contrariamente ` a intui c ao inicial, com trabalho e mem oria
mnimos. Alem disso, mostramos que a express ao obtida para s
k
e unica,
eliminando a aparente liberdade existente na escolha do minimizador em 1
k
no Algoritmo 4.1.10.
Lembrando que Gs
k1
= g
k
g
k1
, e g
k
g
k1
, da f ormula (4.1.15) se
deduz que
d
k
= g
k

g
T
k
g
k
s
T
k1
g
k1
s
k1
= g
k

g
T
k
g
k
d
T
k1
g
k1
d
k1
. (4.1.17)
Alem disso, como d
k1
e a soma de g
k1
mais uma combina c ao dos gra-
dientes anteriores, e esses gradientes s ao ortogonais a g
k1
, (4.1.17) toma a
forma
d
k
= g
k
+
k1
d
k1
, onde
k1
=
g
T
k
g
k
g
T
k1
g
k1
. (4.1.18)
Finalmente, usando, tambem, que s
k
e combina c ao de g
k
e dos gradientes
anteriores, a f ormula (4.1.16) deriva em
x
k+1
= x
k
+
k
d
k
onde
k
=
g
T
k
g
k
d
T
k
Gd
k
. (4.1.19)
As express oes (4.1.18) e (4.1.19) descrevem o algoritmo de gradientes con-
jugados de maneira mais operativa. Para xar ideias, enunciamos de novo
o Algoritmo 4.1.10 de maneira computacionalmente adequada.
Algoritmo 4.1.14 - Gradientes conjugados
Come camos com x
0
arbitr ario e d
0
= g(x
0
). Dados x
k
, g
k
e d
k
IR
n
, a
seq uencia de pontos x
k
(a mesma denida no Algoritmo 4.1.10) e obtida da
seguinte maneira:
Se g
k
= 0, pare declarando convergencia. Se d
T
k
Gd
k
0 pare
declarando inexistencia de mnimo de (4.1.9). Se g
k
,= 0 e d
T
k
Gd
k
> 0
calcule
x
k+1
= x
k
+
k
d
k
, (4.1.20)
onde
k
=
g
T
k
g
k
d
T
k
Gd
k
; (4.1.21)
g
k+1
= g
k
+
k
Gd
k
; (4.1.22)
d
k+1
= g
k+1
+
k
d
k
, (4.1.23)
52 CHAPTER 4. MINIMIZAC

AO DE QUADR

ATICAS
onde
k
=
g
T
k+1
g
k+1
g
T
k
g
k
. (4.1.24)

E interessante observar que nos casos em que o algoritmo p ara por inex-
istencia de mnimo, o vetor d
k
fornece uma dire c ao ao longo da qual q tende
a . Com efeito, se d
T
k
Gd
k
< 0, a par abola q(x
k
+ td
k
) tem coeciente
de segunda ordem menor que 0 e, em conseq uencia, tende a nos dois
sentidos possveis. Se d
T
k
Gd
k
= 0 a express ao (4.1.23) mostra que a derivada
direcional ao longo de d
k
e negativa e a par abola q(x
k
+td
k
) e, na realidade,
uma reta decrescente. Portanto, a fun c ao tende a quando t .
Com base nos resultados anteriores sabemos que, no m aximo em n passos,
o metodo dos gradientes conjugados encontra uma solu c ao do sistema linear
(4.1.2) ou uma dire c ao ao longo da qual a quadr atica tende a . Veremos
agora que, muitas vezes, o n umero necess ario de passos e bem menor.
Teorema 4.1.15
O subespa co de Krylov da matriz G, denido por
/(G, g
0
, k) = Spang
0
, Gg
0
, . . . , G
k1
g
0
,
coincide com o
k
.
Prova: A prova e feita por indu c ao. Para k = 1, o resultado claramente
vale. Suponhamos que o
k
= Spang
0
, Gg
0
, . . . , G
k1
g
0
e vamos mostrar
que o
k+1
= Spang
0
, Gg
0
, . . . , G
k
g
0
. Por (4.1.22), g
k
= g
k1
+
k1
Gd
k1
.
Pela hip otese de indu c ao e pelo fato de que o
k
= Spang
0
, . . . , g
k1
=
Spand
0
, . . . , d
k1
, tanto g
k1
quanto Gd
k1
pertencem a Spang
0
, . . . , G
k
g
0
.
Alem disso, g
k
, o
k
pois sen ao g
k
= 0, j a que g
T
k
d
j
= 0 , j = 0, . . . , k 1.
Portanto, o
k+1
= Spang
0
, Gg
0
, . . . , G
k
g
0
, o que completa a prova. QED
Lema 4.1.16
A dimens ao de o
k
e, no m aximo, o n umero de autovalores distintos da ma-
triz G.
Prova: Seja QQ
T
a decomposi c ao espectral da matriz G e chamemos
v = Q
T
g
0
. Ent ao, pelo Teorema 4.1.15,
o
k
= Spang
0
, Gg
0
, . . . , G
k1
g
0

= SpanQQ
T
g
0
, QQ
T
g
0
, . . . , Q
k1
Q
T
g
0

= SpanQv, Qv, . . . , Q
k1
v .
4.1. QUADR

ATICAS SEM RESTRIC



OES 53
Portanto, a dimens ao de o
k
e a mesma que a do subespa co Spanv, v, . . . ,
k1
v
e e f acil ver que esta dimens ao n ao pode exceder o n umero de autovalores
distintos de G (elementos da diagonal de ). QED
Com base no Lema 4.1.16, a termina c ao nita do Algoritmo 4.1.10 pode ser
reescrita da seguinte forma:
Teorema 4.1.17
O metodo de gradientes conjugados aplicado ao problema (4.1.1) encontra
uma solu c ao do sistema Gx+b = 0 ou calcula uma dire c ao ao longo da qual
a quadr atica tende a em no m aximo p passos, onde p e o n umero de
autovalores distintos de G.
Apesar do resultado estabelecido no Teorema anterior, o metodo dos gradi-
entes conjugados pode ser intoleravelmente lento em problemas de grande
porte, se os autovalores diferentes s ao muitos, ou se o n umero de condi c ao da
matriz e grande. Por exemplo, nas matrizes provenientes de discretiza c oes da
equa c ao de Laplace, ` a medida que o n umero de pontos cresce, o n umero de
condi c ao de G tambem aumenta muito e os autovalores s ao todos diferentes.
Nesses casos, estrategias para acelerar o metodo tornam-se necess arias. Tradi-
cionalmente, o que se faz e construir um problema equivalente ao original
mas que seja mais favor avel para o metodo, isto e, no qual a matriz Hes-
siana tenha um menor n umero de autovalores distintos e/ou tenha n umero
de condi c ao menor. Tal estrategia e conhecida por precondicionamento.
Vamos supor que, de alguma forma, conhecemos uma matriz H parecida
com G e que H e simetrica denida positiva. Suponhamos que a decom-
posi c ao espectral de H e H = QQ
T
. Ent ao, H

1
2
= Q

1
2
Q
T
e a matriz
H

1
2
GH

1
2
estaria muito pr oxima da matriz identidade. Desta forma,
H seria um precondicionador adequado, j a que o problema original (4.1.1)
caria equivalente ao seguinte problema precondicionado:
Minimizar
1
2
w
T
H

1
2
GH

1
2
w +d
T
w +c
onde w = H
1
2
x, d = H

1
2
b e o sistema H

1
2
GH

1
2
w +d = 0 teria resolu c ao
f acil pois H

1
2
GH

1
2
I.
A arte do precondicionamento consiste em encontrar H parecida com G de
maneira que tanto H quanto H
1
sejam f aceis de calcular. Um precondi-
cionador cl assico e tomar H como a diagonal de G. Tambem e usual adotar
H como uma fatora c ao de Cholesky incompleta de G.
54 CHAPTER 4. MINIMIZAC

AO DE QUADR

ATICAS
Exerccio 4.8: Reescrever as f ormulas do Algoritmo 4.1.14 incorporando
precondicionamento e trabalhando com as vari aveis originais. Ver [96].
4.2 Quadraticas em bolas
Nesta se c ao consideramos o seguinte problema:
Minimizar q(x) =
1
2
x
T
Gx +b
T
x +c
|x|
(4.2.1)
onde G = G
T
IR
nn
, b IR
n
, c IR, > 0 e | | = | |
2
, conven c ao
adotada daqui em diante.
Contrariamente a (4.1.1), este problema sempre tem solu c ao, j a que as
quadr aticas s ao fun c oes contnuas e a regi ao factvel de (4.1.11) e uma bola
fechada, portanto, um compacto de IR
n
. Vimos na Se c ao 4.1 que, quando
(4.1.1) n ao tem solu c ao, existem pontos de IR
n
ao longo dos quais a fun c ao
tende a . Portanto, nesse caso, se chamamos x() a uma solu c ao de
(4.2.1), teremos
lim

q( x()) = .
Alem disso, e obvio que q( x()) e n ao crescente como fun c ao de . Logo,
uma solu c ao de (4.2.1) para grande fornece uma boa aproxima c ao para
uma dire c ao d que verica (4.1.7).
O estudo do problema (4.2.1) se originou em certos subproblemas que apare-
cem na minimiza c ao irrestrita de fun c oes gerais, como veremos no captulo
7. Entretanto, recentemente, alguns autores utilizaram (4.2.1) como uma
maneira de regularizar o problema de minimizar uma quadr atica irrestrita.
A ideia e que, quando G e muito mal condicionada, a solu c ao exata de
(4.1.1) carece de sentido, por ser extremamente sensvel aos erros dos dados,
ou ao arredondamento. Por outro lado, o problema (4.2.1) e bem condi-
cionado se n ao e grande. Portanto, substituir (4.1.1) por (4.2.1) repre-
senta um certo sacrifcio em termos do erro no resduo do sistema (4.1.2),
mas freq uentemente compensado por uma maior estabilidade. Ver [191],
[195], [116], [142].
A estrutura muito especial do problema (4.2.1) proporciona caracteriza c oes
dos minimizadores muito mais poderosas que no caso geral de minimiza c ao
restrita. No caso geral, um minimizador deve ser um zero do gradiente do
Lagrangiano e a Hessiana desta fun c ao deve ser semidenida positiva num
4.2. QUADR

ATICAS EM BOLAS 55
certo subespa co tangente (cf. captulo 2). No seguinte teorema mostramos
que, num minimizador global de (4.2.1), a Hessiana do Lagrangiano deve ser
semidenida positiva globalmente, e n ao apenas restrita a um subespa co.
Ver [88], [187].
Teorema 4.2.1
Se z e solu c ao de (4.2.1), ent ao z e solu c ao da equa c ao
(G+I)z = b (4.2.2)
com 0, (z
T
z
2
) = 0 e (G+I) 0.
Prova: O problema (4.2.1) e equivalente a
Minimizar q(x)
x
T
x
2
.
(4.2.3)
Como z e solu c ao de (4.2.1), z satisfaz as condi c oes KKT para (4.2.3), isto
e, existe 0 tal que Gz +b +z = 0 e (z
T
z
2
) = 0. Portanto, z e
vericam (4.2.2).
Para vermos que G + I 0, suponhamos inicialmente que z ,= 0. Como
z e solu c ao de (4.2.1), z tambem e minimizador global de q(x) sujeita a
|x| = |z|. Ent ao
q(x) q(z) para todo x tal que |x| = |z| . (4.2.4)
Substituindo (4.2.2) em (4.2.4), temos
1
2
x
T
Gx z
T
(G+I)x
1
2
z
T
Gz z
T
(G+I)z . (4.2.5)
Rearranjando (4.2.5), segue que
1
2
(x z)
T
(G+I)(x z) 0
para todo x tal que |x| = |z|. Como z ,= 0, as dire c oes x z tais que
|x| = |z| envolvem todas as dire c oes do espa co exceto as ortogonais a z.
Agora, qualquer vetor ortogonal a z e o limite de uma seq uencia de vetores
v
k
para os quais, neste caso v
T
k
(G+I)v
k
0. Portanto, passando ao limite,
a express ao v
T
(G+I)v 0 vale tambem para os vetores v ortogonais a z.
Portanto, G+I 0.
56 CHAPTER 4. MINIMIZAC

AO DE QUADR

ATICAS
Se z = 0, por (4.2.2) temos b = 0. Ent ao z = 0 e solu c ao de
Minimizar
1
2
x
T
Gx +c sujeita a |x| ,
e, pelo Lema 4.1.4, G 0 e v
T
(G + I)v 0 vale para todo v IR
n
com
= 0. QED
O pr oximo resultado fornece condi c oes sucientes que garantem que z e
solu c ao de (4.2.1).
Teorema 4.2.2
Sejam IR e z IR
n
tais que
(G+I)z = b com (G+I) 0. (4.2.6)
(a) Se = 0 e |z| ent ao z e solu c ao de (4.2.1).
(b) Se |z| = ent ao z e solu c ao de
Minimizar q(x) sujeita a |x| = .
(c) Se 0 e |z| = ent ao z e solu c ao de (4.2.1).
Alem disso, se G+I > 0, ent ao z e unica em (a), (b) e (c).
Prova: Se e z satisfazem (4.2.6), z e minimizador da quadr atica
q(x) =
1
2
x
T
(G+I)x +b
T
x +c.
Logo,
1
2
x
T
(G+I)x +b
T
x +c
1
2
z
T
(G+I)z +b
T
z +c (4.2.7)
para todo x IR
n
.
De (4.2.7) segue que
q(x) q(z) +

2
(z
T
z x
T
x) (4.2.8)
para todo x IR
n
.
As arma c oes (a), (b) e (c) s ao conseq uencias imediatas de (4.2.8). A uni-
cidade segue de (4.2.7) pois se G + I > 0, a desigualdade e estrita para
x ,= z. QED
4.2. QUADR

ATICAS EM BOLAS 57
Os teoremas acima mostram que, se existe uma solu c ao z do problema (4.2.1)
situada na fronteira da bola, ela deve satisfazer, com seu multiplicador cor-
respondente , as seguintes equa c oes:
(G+I)z = b, |z| = . (4.2.9)
Alem disso, 0 e G + I 0. Solu c oes de (4.2.1) no interior da bola
s o podem existir se G e semidenida positiva e, nesse caso, z, com norma
menor que , deve ser solu c ao de (4.1.2).
Se
1
. . .
n
s ao os autovalores de G, a condi c ao G+I 0 e equivalente
a
1
. Assim, as duas limita c oes sobre o multiplicador , para detectar
solu c oes na fronteira, se resumem em
m aximo 0,
1
. (4.2.10)
Portanto, para encontrar as solu c oes de (4.2.1) na superfcie da bola de uma
maneira ingenua, dividimos o problema em duas quest oes:
(a) Existem solu c oes com >
1
?
(b)
1
e solu c ao de ()?
A segunda quest ao pode ser eliminada se
1
> 0, ou seja, se G e denida
positiva.
Examinemos a quest ao (a). Na regi ao >
1
o sistema (G+I)z = b tem
como solu c ao unica z = (G+I)
1
b j a que, neste caso, G+I e inversvel.
Portanto, encontrar >
1
satisfazendo () e equivalente a resolver
|(G +I)
1
b| = . (4.2.11)
ou
() =
2
, (4.2.12)
onde () |(G + I)
1
b|
2
. Parece bastante relevante, em conseq uencia,
estudar a forma da fun c ao univariada (). Consideremos a decomposi c ao
espectral G = QQ
T
, onde Q = (v
1
, . . . , v
n
), v
i
IR
n
e = diag (
1
, . . . ,
n
).
Pela invari ancia da norma euclidiana sob transforma c oes ortogonais, a fun c ao
() pode ser escrita como:
() = d
T
( +I)
2
d =
n

i=1
d
2
i
(
i
+)
2
, (4.2.13)
onde d = Q
T
b. A express ao (4.2.13) revela que
lim

() = 0. (4.2.14)
58 CHAPTER 4. MINIMIZAC

AO DE QUADR

ATICAS
Ao mesmo tempo,
lim

1
+
() = (4.2.15)
se, e somente se, d
i
= [Q
T
b]
i
,= 0 para algum i tal que
1
=
i
. Neste caso,
() e estritamente decrescente e convexa. Isto signica que, quando b n ao
e perpendicular ao subespa co de autovetores associado ao menor autovalor
de G, a equa c ao () tem uma unica solu c ao para >
1
, qualquer que
seja . Se essa solu c ao e maior ou igual a 0, (G + I)
1
b ser a o unico
minimizador global de (4.2.1).
Quando b e perpendicular ao subespa co de autovetores associado ao menor
autovalor de G a express ao de () e
() =
n

i=
d
2
i
(
i
+)
2
,
onde e o ndice do menor autovalor diferente de
1
. Portanto, nesse caso,
(
1
) =
n

i=
d
2
i
(
i

1
)
2
,
e uma unica solu c ao de () maior que
1
existir a se, e somente se, (
1
) >
. Quando isso acontece, a fun c ao tambem e convexa e estritamente
decrescente.
A an alise acima esgota o exame da existencia de solu c oes de () maiores que

1
. Suponhamos agora que existe z na fronteira da bola tal que (G

1
I)z = b. A matriz G
1
I e singular, portanto o sistema considerado
tem innitas solu c oes, e podemos considerar a solu c ao de norma mnima x

.
Usando a decomposi c ao espectral, temos
(
1
I)Q
T
x

= Q
T
b = d,
ou seja
(
i

1
)[Q
T
x

]
i
= d
i
para i = , . . . , n. (4.2.16)
Os graus de liberdade da equa c ao (4.2.16) s ao usados, na solu c ao de norma
mnima, escolhendo
[Q
T
x

]
i
= 0, para i = 1, . . . , 1. (4.2.17)
De (4.2.16) e (4.2.17) e f acil deduzir que
lim

1
(G+I)
1
b = x

4.2. QUADR

ATICAS EM BOLAS 59
e, portanto,
lim

1
() = |x

|
2

2
.
Portanto, neste caso, n ao pode haver nenhuma solu c ao de () com maior
que
1
.
Resumindo, a existencia de um minimizador global na fronteira com mul-
tiplicador maior que
1
e incompatvel com a existencia de outro min-
imizador global com o multiplicador igual a
1
. Pelo exposto, vemos
que, para que
1
seja o multiplicador otimo, b deve ser ortogonal ao
subespa co de autovetores associado a
1
. Para encontrar, nesse caso, um
minimizador global pode-se proceder encontrando uma solu c ao qualquer de
(G
1
I)x = b, um autovetor v associado a
1
e, nalmente, um ele-
mento da fronteira da bola com a forma x +tv.
O exposto acima mostra que, possuindo a decomposi c ao espectral de G, re-
solver o problema (4.2.1) carece de segredos. Como em geral a decomposi c ao
espectral e computacionalmente cara, procura-se desenvolver algoritmos que
a evitem. Via de regra, esses algoritmos resolvem a equa c ao () calculando
mediante uma fatora c ao de Cholesky de G+I para cada tentativa . Ver
[148]. Mais precisamente, resolve-se a equa c ao
1
|(G+I)
1
b|
=
1

que e mais favor avel ` a aplica c ao do metodo de Newton para achar zeros
de fun c oes que (). Ver [171], [115]. Agora, o caso em que o multiplicador
otimo e
1
, ou est a pr oximo desse valor crtico e complicado numerica-
mente, motivo pelo qual e conhecido como hard case na literatura. Atual-
mente trabalha-se intensamente em metodos para resolver (4.2.1) que usem
metodos iterativos lineares, em vez de fatora c oes de matrizes. Ver [188],
[180], [201].
Exerccio 4.9: Estabelecer e provar rigorosamente as propriedades de e
suas derivadas primeira e segunda. Provar que o n umero total de pontos
estacion arios de (4.2.1) na fronteira da bola e menor ou igual a 2 q, onde
q e o n umero de autovalores distintos de G.
Exerccio 4.10: Estudar as propriedades da fun c ao 1/
1/2
usada para en-
contrar efetivamente o multiplicador associado a uma solu c ao de (4.2.1).
60 CHAPTER 4. MINIMIZAC

AO DE QUADR

ATICAS
4.3 Quadraticas em caixas
Em muitos problemas pr aticos em que se deseja ajustar um modelo linear
a um conjunto de dados empricos, os par ametros desconhecidos tem sen-
tido fsico apenas em uma determinada regi ao do espa co. Nesses casos, em
vez de um problema puro de quadrados mnimos teremos um problema de
quadrados mnimos com restri c oes. A situa c ao mais comum e quando cada
par ametro n ao pode ser inferior a determinada cota, nem superior a outra.
Nesse caso, o conjunto de restri c oes toma a forma
l
i
x
i
u
i
para todo i = 1, . . . , n,
ou, mais brevemente,
l x u.
O conjunto IR
n
formado pelos pontos que satisfazem essas restri c oes
se diz uma caixa de IR
n
, denomina c ao mais confort avel que a alterna-
tiva hiperparaleleppedo.

E conveniente admitir os valores para
l
i
e + para u
i
, j a que, ` as vezes, apenas algumas vari aveis est ao natu-
ralmente limitadas e, outras, a limita c ao e somente inferior, ou superior.
Em problemas fsicos e muito comum que as inc ognitas, representando de-
terminados coecientes, devam ser positivas, em cujo caso e o ortante
x IR
n
[ x
i
0, i = 1, . . . , n.
Entretanto, como no caso da minimiza c ao em bolas, o problema de mini-
miza c ao de quadr aticas em caixas n ao tem interesse apenas por sua aplica c ao
direta. Como veremos mais adiante, este tambem e um subproblema muito
utilizado, de maneira iterativa, quando o objetivo ultimo e resolver um prob-
lema mais complicado, por exemplo, a minimiza c ao de uma fun c ao geral (n ao
quadr atica) numa caixa. Nesses casos, a matriz G ser a a Hessiana da fun c ao
objetivo num ponto dado e, como nada se sabe a priori sobre os autoval-
ores dessa matriz, e importante considerar n ao apenas o caso convexo, como
tambem o caso em que a matriz n ao e semidenida positiva.
Veremos que, contrariamente ` a minimiza c ao em bolas, em que podamos re-
conhecer perfeitamente um minimizador global mesmo no caso n ao convexo,
os algoritmos pr aticos que apresentaremos dever ao se contentar com pontos
estacion arios. Garantir um minimizador global nestes problemas e possvel,
mas apenas atraves de metodos muito caros computacionalmente. Ver [194].
Nosso problema e, pois,
Minimizar q(x)
sujeita a x ,
(4.3.1)
4.3. QUADR

ATICAS EM CAIXAS 61
onde = x IR
n
[ l x u , l < u, q(x) =
1
2
x
T
Gx + b
T
x + c. Se
G e semidenida positiva (4.3.1) e um problema convexo e os pontos esta-
cion arios coincidem com os minimizadores globais.
Denotaremos = minu
i
l
i
, i = 1, ..., n. Veremos que, nas opera c oes em
que aparecer a , a possibilidade = ter a interpreta c ao unvoca. Outra
nota c ao util ser a g(x) q(x) (Gx + b). Em v arias situa c oes (nas
provas te oricas, n ao no algoritmo) usaremos uma cota superior L > 0 do
maior autovalor de G. Teremos assim que, para todo x, z IR
n
,
q(z) q(x) q(x)
T
(z x) =
1
2
(z x)
T
G(z x)
L
2
|z x|
2
. (4.3.2)
Denimos uma face aberta de como um conjunto F
I
, onde I e um sub-
conjunto (talvez vazio) de 1, 2, . . . , 2n que n ao contem simultaneamente i
e n +i, i 1, 2, . . . , n, tal que
F
I
= x [x
i
= l
i
se i I, x
i
= u
i
se n+i I, l
i
< x
i
< u
i
nos outros casos .
Por exemplo, se = x IR
3
[ 1 x
1
5, 2 x
2
teremos F
{1,2}
=
x IR
3
[ x
1
= 1, x
2
= 2, F
{4}
= x IR
3
[ x
1
= 5, 2 < x
2
, F

= x
IR
3
[ 1 < x
1
< 5, 2 < x
2
e assim por diante. Claramente, faces abertas
correspondentes a sub-ndices diferentes s ao disjuntas (I ,= J implica que
a intersec c ao entre F
I
e F
J
e vazia) e e a uni ao de todas as suas faces
abertas.
Chamamos

F
I
o fecho de cada face aberta, V (F
I
) a menor variedade am
que contem F
I
, S(F
I
) o subespa co paralelo a V (F
I
) e dim F
I
a dimens ao
de S(F
I
).

E f acil ver que dim F
I
= n [I[, onde [I[ denota o n umero
de elementos de I, ou, em linguagem equivalente, o n umero de restri c oes
(ou canaliza c oes) ativas nos pontos de F
I
. Lembrando termos usados no
Captulo 2, podemos vericar tambem que todos os pontos de uma caixa
s ao regulares.
Para cada x denimos o gradiente projetado negativo, ou vetor de
Cauchy g
P
(x) IR
n
como
g
P
(x)
i
=
_

_
0 se x
i
= l
i
e [q(x)]
i
> 0
0 se x
i
= u
i
e [q(x)]
i
< 0
[q(x)]
i
nos outros casos.
(4.3.3)
Tanto por aplica c ao da condi c ao necess aria de otimalidade de primeira or-
dem, como por an alise direta, podemos vericar que, se x e minimizador
local ou global de (4.3.1), teremos
g
P
(x) = 0 . (4.3.4)
62 CHAPTER 4. MINIMIZAC

AO DE QUADR

ATICAS
Se G 0 a quadr atica e convexa e (4.3.4) passa a ser uma condi c ao suciente
para minimizador global.
Quando restringimos a fun c ao quadr atica a uma face aberta F
I
, as vari aveis
livres s ao apenas as que se encontram estritamente entre os limites denidos
pelo conjunto I. O vetor denido a seguir e o inverso aditivo do gradiente
em rela c ao a essas vari aveis livres. Assim, para cada x F
I
denimos
g
I
(x) IR
n
como
g
I
(x)
i
=
_
0 se i I ou n +i I
[q(x)]
i
nos outros casos.
(4.3.5)
Observamos que g
I
(x) e a proje c ao ortogonal de q(x) em S(F
I
). Tambem
podemos interpretar g
I
(x) como a componente de g
P
(x) no subespa co
S(F
I
). Naturalmente, g
P
(x) tem uma segunda componente, ortogonal a
S(F
I
), que chamamos gradiente chopado e denotamos por g
C
I
(x). Dessa
maneira, para cada x F
I
,
g
C
I
(x)
i
=
_

_
0 se i / I e n +i / I
0 se i I e [q(x)]
i
> 0
0 se n +i I e [q(x)]
i
< 0
[q(x)]
i
nos outros casos.
(4.3.6)
Como mencionamos acima, e f acil ver que, para todo x F
I
, o gradiente
interno g
I
(x) e ortogonal ao gradiente chopado, e
g
P
(x) = g
I
(x) + g
C
I
(x) .
O algoritmo para minimizar quadr aticas em caixas que apresentaremos pro-
duz uma seq uencia x
k
de aproxima c oes da solu c ao de (4.3.1) baseada na
minimiza c ao parcial da quadr atica nas diferentes faces visitadas. Quando
x
k
pertence a uma face F
I
, um algoritmo interno para minimiza c ao de
quadr aticas irrestritas ser a acionado, trabalhando apenas com as vari aveis
livres da face. A suposi c ao b asica ser a que esse algoritmo e convergente no
sentido de que ele produz, em um n umero nito de passos um ponto externo
a (mas pertencente, naturalmente, a V (F
I
)), ou que todo ponto limite do
algoritmo e um ponto estacion ario do problema, essencialmente irrestrito, de
minimizar q(x) sujeita a x V (F
I
). Em outras palavras, o algoritmo interno
encontra um ponto estacion ario restrito a F
I
ou viola as restri c oes inativas
dessa face. Em cada passo do algoritmo interno, vericamos se ele j a est a
bastante perto de um ponto estacion ario em F
I
. Para isso, comparamos
o tamanho do gradiente chopado com o tamanho do gradiente projetado.
4.3. QUADR

ATICAS EM CAIXAS 63
Se o quociente entre ambos e grande (o valor m aximo e 1), signica que o
gradiente interno e pequeno em rela c ao ao gradiente chopado e, portanto,
continuar explorando a face F
I
e pouco econ omico, ou seja, abandonar as
cotas que est ao ativas em F
I
parece mais razo avel. Isso e feito usando a
dire c ao do gradiente chopado. Veremos que a seq uencia de pontos assim
denida e convergente a pontos estacion arios de (4.3.1), que s ao solu c oes
do problema no caso convexo. Este algoritmo e, essencialmente, o denido
em [12], com antecedentes nos trabalhos [79], [78], [82], [81], [149].
Provavelmente, agora o leitor percebe mais claramente nosso interesse na
propriedade (4.1.7), ou em propriedades an alogas. Como o algoritmo ir-
restrito usado em F
I
tem um papel essencial no desempenho do metodo
principal desta se c ao, vamos estabelecer rigorosamente quais devem ser suas
caractersticas.
Diremos que um algoritmo para minimizar q(x) em V (F
I
) (problema, essen-
cialmente, irrestrito) tem as propriedades boas para a minimiza c ao em caixas
quando produz uma seq uencia z
0
, z
1
, z
2
, . . . V (F
I
), z
0
F
I
(talvez
nita) que cumpre o seguinte:
(a) Se z
k
e z
k+1
est ao denidos, ent ao q(z
k+1
) < q(z
k
).
(b) Se z
k+1
n ao est a denido (a seq uencia termina em z
k
) isto pode ser
devido a dois motivos: z
k
e um ponto estacion ario da minimiza c ao de q(x)
em V (F
I
) ou foi encontrada uma dire c ao d
k
tal que
lim
t
q(z
k
+td
k
) = .
Neste caso, se z
k
+td
k
para todo t, a inexistencia de solu c ao de (4.3.1)
ca caracterizada. Se, pelo contr ario, z
k
+ td
k
/ para t grande, escolhe-
se um ultimo z
k+1
= z
k
+ td
k
tal que q(z
k+1
) < q(z
k
) e d a-se por
terminada a seq uencia gerada pelo algoritmo interno em z
k+1
.
(c) Se a seq uencia z
k
e innita, ent ao todo ponto limite da mesma e um
ponto estacion ario q sujeita a V (F
I
). Se n ao existem pontos limite (logo
|z
k
| ) deve-se satisfazer
lim
k
q(z
k
) = .
Vejamos que os algoritmos para minimizar quadr aticas sem restri c oes que es-
tudamos na se c ao 4.1 satisfazem essas condi c oes. O metodo direto, baseado
na fatora c ao de Cholesky da matriz G reduzida (as vari aveis correspon-
dentes ` as restri c oes ativas em F
I
est ao xas) encontra o minimizador de
Q em V (F
I
) em um passo, se a quadr atica q restrita a V (F
I
) e estrita-
mente convexa (a Hessiana reduzida e denida positiva). Portanto, satisfaz
64 CHAPTER 4. MINIMIZAC

AO DE QUADR

ATICAS
claramente (a) e (b) e a hip otese de (c) e vazia porque a seq uencia termina
em z
1
. Quando a Hessiana reduzida n ao e denida positiva, a fatora c ao
de Cholesky n ao poder a ser completada. Suponhamos que a fatora c ao es-
pectral e vi avel. Nesse caso, j a vimos que podemos obter um minimizador
irrestrito, quando existe, ou uma dire c ao que satisfaz (4.1.7), portanto, o
algoritmo que combina fatora c ao de Cholesky com decomposi c ao espectral
satisfaz as condi c oes acima. Se a fatora c ao espectral e invi avel, podemos
usar a fatora c ao Bunch-Parlett, ou resolver a seq uencia de problemas
Minimizar q(z) sujeita a z V (F
I
), |z z
k
| (4.3.7)
para grande, usando o metodo de More e Sorensen comentado na se c ao
4.2, que usa apenas fatora c oes de Cholesky de matrizes denidas positivas.
Se z
k
e solu c ao de (4.3.7), ent ao z
k
e minimizador de q restrita a V (F
I
)
e o algoritmo p ara. Se (4.3.7) gera uma seq uencia innita, teremos que
todo ponto de acumula c ao da mesma e estacion ario de q em V (F
I
), ou os
valores de q(x
k
) tendem a (exerccio para o leitor). Em qualquer caso,
as condi c oes (a), (b) e (c) se satisfazem.
As propriedades do metodo dos gradientes conjugados, para minimizar q em
V (F
I
) foram estudadas na se c ao 4.1. Vimos que esse metodo termina em um
ponto estacion ario em um n umero nito de passos ou gera uma dire c ao ao
longo da qual a quadr atica tende a . Portanto, satisfaz as condi c oes (a),
(b) e (c). Em [12] s ao estudados outros metodos iterativos que satisfazem
essas condi c oes em determinadas circunst ancias.
Agora podemos denir o algoritmo para minimizar quadr aticas em caixas,
com um alto grau de liberdade, devido ` a exibilidade na escolha do algo-
ritmo interno a F
I
. De fato, observemos que nada obriga a que o mesmo
algoritmo interno seja utilizado em todas as caixas. Por exemplo, como ob-
servado em [12], diferentes algoritmos podem ser usados em diferentes faces,
tendo em conta a dimens ao da mesma.
Algorithm 4.3.1 - Minimiza c ao de quadr aticas em caixas.
Seja (0, 1) dado indepentemente de k, e x
0
um ponto inicial ar-
bitr ario. O algoritmo dene uma seq uencia x
k
em e p ara se | g
P
(x
k
)| =
0. Suponhamos que x
k
e tal que | g
P
(x
k
)| ,= 0. Seja I = I(x
k
) tal que
x
k
F
I
. Chamemos (x) ao minimizador de q ao longo do segmento
(talvez semi-reta) x [ x = x
k
+ t g
C
I
(x
k
), t 0. Os seguintes passos
denem o procedimento para encontrar x
k+1
.
Passo 1: Come cando com z
0
= x
k
, usar um metodo com as propriedades
4.3. QUADR

ATICAS EM CAIXAS 65
boas para minimiza c ao de quadr aticas em caixas aplicado ao problema
essencialmente irrestrito de minimizar q(x) em V (F
I
), obtendo assim z
0
=
x
k
, z
1
= x
k+1
, . . .. Interromper esse metodo quando x
k
satisfaz uma das
seguintes condi c oes:
(a)
x
k
e | g
P
(x
k
)| = 0; (4.3.8)
(b) O metodo interno detectou que (4.3.1) e ilimitado inferiormente.
(c)
| g
C
I
(x
k
)| > | g
P
(x
k
)|; (4.3.9)
(d)
z
+1
/ . (4.3.10)
Passo 2: Se o metodo interno foi interrompido por (4.3.8), parar (x
k
e
um ponto estacion ario de (4.3.1)). Se o metodo interno detecta que (4.3.1)
n ao tem solu c ao, o algoritmo principal e interrompido com esse mesmo di-
agn ostico.
Passo 3: Se o teste (4.3.9) foi satisfeito em x
k
, e q n ao e limitada inferior-
mente no segmento (nesse caso, necessariamente, semi-reta) x+t g
C
I
(x
k
), t
0 o problema (4.3.1) n ao tem solu c ao. Nesse caso, parar. Em caso contr ario,
calcular x
k+1
= (x
k
).
Passo 4: Se x
k
= z

e z
+1
viola os limites de

F
I
(condi c ao (4.3.10)), encon-
trar x
k+1
na fronteira de F
I
(

F
I
F
I
) tal que q(x
k+1
) < q(x
k
) ou detectar
que o problema (4.1.3) n ao tem solu c ao.
Comprovar que o Algoritmo 4.3.1 est a bem denido consiste em provar que
o Passo 4 e possvel. Pelas propriedades do algoritmo interno, temos que
q(z
+1
) < q(x
k
). Agora, (t) q(x
k
+ t(z
+1
x
k
)) e uma par abola como
fun c ao de t. Logo, (t) decresce em forma mon otona entre t = 0 e t = 1, ou
(t) e estritamente crescente para t < 0. No primeiro caso, avan cando desde
t = 0, no sentido positivo, ate a fronteira, encontramos um ponto onde a
quadr atica diminui de valor. Na segunda situa c ao ocorre essencialmente o
mesmo, avan cando no sentido negativo de t. Nos dois casos, o ponto en-
contrado est a na reta determinada por x
k
e z
+1
. Em algoritmos pr aticos,
o ponto da fronteira encontrado ser a, via de regra, melhor que o denido
neste par agrafo.
No seguinte lema vamos considerar a situa c ao em que a condi c ao (4.3.9) e
satisfeita e (x
k
) existe, ou seja, pelo menos neste passo n ao e detectada
a eventualidade de que a quadr atica seja ilimitada inferiormente, e x
k+1
e
66 CHAPTER 4. MINIMIZAC

AO DE QUADR

ATICAS
denido como sendo (x
k
). Essencialmente, mostraremos que o decrescimo
obtido de x
k
ate x
k+1
e proporcional ` a norma de g
P
(x
k
).
Lema 4.3.2
Se x
k+1
= (x
k
) e obtido no Passo 3 do Algoritmo 4.3.1, ent ao
q(x
k
) q(x
k+1
) min

2
| g
P
(x
k
)| ,

2
2L
| g
P
(x
k
)|
2
.
Prova: Como o teste (4.3.9) e satisfeito, ent ao g
C
I
(x
k
) ,= 0. Portanto,
x
k
+ t g
C
I
(x
k
) para todo t [0,

t], onde

t = /| g
C
I
(x
k
)|. Consideremos
a quadr atica unidimensional denida por
(t) = q(x
k
+t g
C
I
(x
k
)) = q(x
k
) +tq(x
k
)
T
g
C
I
(x
k
) +
1
2
t
2
g
C
I
(x
k
)
T
G g
C
I
(x
k
) .
Se g
C
I
(x
k
)
T
G g
C
I
(x
k
) > 0 ent ao o unico minimizador irrestrito de (t) e dado
por
t

=
| g
C
I
(x
k
)|
2
g
C
I
(x
k
)
T
G g
C
I
(x
k
)
.
Se x
k
+t

g
C
I
(x
k
) n ao est a em , ent ao x
k+1
= (x
k
) e realizado para algum

t tal que

t

t < t

, e
q(x
k
+

t g
C
I
(x
k
) q(x
k
+

t g
C
I
(x
k
)) . (4.3.11)
Substituindo

t em (t), obtemos
(

t) = q(x
k
) | g
C
I
(x
k
)| +

2
g
C
I
(x
k
)G g
C
I
(x
k
)
2 | g
C
I
(x
k
)|
2
. (4.3.12)
Usando (4.3.12) e o fato de que t

>

t, segue-se que
q(x
k
+

t g
C
I
(x
k
)) q(x
k
) <

2
| g
C
I
(x
k
)| . (4.3.13)
Combinando (4.3.11) e (4.3.13), temos
q(x
k
) q(x
k+1
) >

2
| g
C
I
(x
k
)| >

2
| g
P
(x
k
)| . (4.3.14)
4.3. QUADR

ATICAS EM CAIXAS 67
Agora, se x
k
+t

g
C
I
(x
k
) est a em , ent ao esse ponto e x
k+1
e obtemos
q(x
k+1
) q(x
k
) =
| g
C
I
(x
k
)|
4
2 g
C
I
(x
k
)
T
G g
C
I
(x
k
)
. (4.3.15)
Portanto, usando (4.3.2) e (4.3.15), temos:
q(x
k
) q(x
k+1
) >
1
2L
| g
C
I
(x
k
)|
2
>

2
2L
| g
P
(x
k
)|
2
. (4.3.16)
Analisemos agora a situa c ao em que g
C
I
(x
k
)
T
G g
C
I
(x
k
) 0. Nesse caso,
(t) q(x
k
) +tq(x
k
)
T
g
C
I
(x
k
) ,
e q(x
k+1
) < (

t) q(x
k
) | g
C
I
(x
k
)|. Portanto,
q(x
k
) q(x
k+1
) > | g
C
I
(x
k
)| > | g
P
(x
k
)| . (4.3.17)
Resumindo, existem tres casos possveis: x
k
+t

g
C
I
(x
k
) factvel, ou infactvel,
ou g
C
I
(x
k
)
T
G g
C
I
(x
k
) 0. Em cada caso obtemos, respectivamente, (4.3.14),
(4.3.16) e (4.3.17), o que implica a tese. QED
Em continua c ao, provamos a convergencia global do Algoritmo 4.3.1.
Lembramos primeiro as condi c oes nas quais o algoritmo p ara, isto e, gera
uma seq uencia nita: quando encontra um ponto estacion ario x
k
de (4.3.1)
ou quando detecta que o problema e ilimitado inferiormente, e, portanto, sem
solu c ao. Basicamente, provaremos que, se o algoritmo gera uma seq uencia
innita, haver a, essencialmente, as mesmas duas possibilidades: encontraremos
um gradiente projetado arbitrariamente pequeno, ou a seq uencia dos valores
funcionais em x
k
tender a a .
Teorema 4.3.3
Suponhamos que o Algoritmo 4.3.1 gera uma seq uencia innita x
k
. Ent ao,
existem duas possibilidades:
liminf
k
| g
P
(x
k
)| = 0 (4.3.18)
e
lim
k
q(x
k
) = . (4.3.19)
Proof. Suponhamos que (4.3.18) n ao se cumpre. Portanto, existe > 0 tal
que
| g
P
(x
k
)| > para todo k . (4.3.20)
68 CHAPTER 4. MINIMIZAC

AO DE QUADR

ATICAS
Consideramos dois casos:
(a) A condi c ao (4.3.9) e satisfeita em um n umero nito de itera c oes.
(b) Existe um conjunto innito de ndices K
1
^ tal que (4.3.9) e satisfeita
para todo k K
1
.
Se (a) vale, ent ao existe k
0
tal que x
k
F
I
para um I xo, e para todo
k k
0
. Portanto, a seq uencia e gerada pelo algoritmo interno para todo
k k
0
. Pelas propriedades do algoritmo interno, temos que, se |x
k
| ,
vale (4.3.19). Se pelo contr ario, x
k
admite uma subseq uencia limitada e
convergente, x
k

kK
2
, devemos ter
lim
kK
2
|g
I
(x
k
)| = 0.
Agora, como (4.3.9) n ao se satisfaz para nenhum k K
2
, necessariamente
|g
C
I
(x
k
)| e |g
P
(x
k
)| tambem tendem a 0 para k K
2
, o que contradiz
(4.3.20). Portanto, a tese do teorema ca provada no caso (a).
Suponhamos agora que vale (b). Seja k
j
o j-esimo ndice de K
1
, j ^.
Usando (4.3.20), o Lema 4.3.2 e o fato de que q(x
k
) e monotonicamente
decrescente, obtemos
q(x
k
j
) q(x
k
1
) =
k
j
1

l=k
1
(q(x
l+1
) q(x
l
))

k
j
1

lK
1
, l=k
1
(q(x
l+1
) q(x
l
))

k
j
1

lK
1
, l=k
1
min

2
| g
P
(x
l
)|,

2L
| g
P
(x
l
)|
2

< j min

2
,

2L

2
(4.3.21)
Usando (4.3.21) concluimos que, neste caso,
lim
j
q(x
k
j
) = .
Portanto, o teorema est a provado. QED
Examinemos algumas conseq uencias do resultado provado no Teorema 4.3.3.
Se a seq uencia gerada pelo algoritmo e limitada, o que, sem d uvida, aconte-
cer a, por exemplo, quando os limitantes l
i
e u
i
n ao assumem valores innitos,
a possibilidade de que a sequencia q(x
k
) seja ilimitada inferiormente deve
ser excluda. Portanto, nesse caso, temos uma subseq uencia x
k

kK
1
onde
4.3. QUADR

ATICAS EM CAIXAS 69
os gradientes projetados tendem a 0. Por compacidade, essa subseq uencia
tem, por sua vez, uma subseq uencia convergente. Consideremos agora qual-
quer subseq uencia convergente x
k

kK
2
, com limite, digamos, x

F
I
. Se
l
i
< [x

]
i
< u
i
, segue-se que l
i
< [x
k
]
i
< u
i
para todo k K
2
suciente-
mente grande. Portanto, a iesima derivada parcial de q em x
k
tende a 0
e, conseq uentemente, [q(x

)]
i
= 0. Se [x

]
i
= l
i
, teremos que [x
k
]
i
l
i
para todo k K
2
sucientemente grande, digamos k k
0
. Denimos
K
3
= k K
2
[ [x
k
]
i
> l
i
, k k
0
e K
4
= k K
2
[ [x
k
]
i
= l
i
, k k
0
.
Claramente, pelo menos um desses conjuntos e innito. Se K
3
e innito, ter-
emos que [q(x
k
)]
i
= [ g
P
(x
k
)]
i
0 para k K
3
, portanto [q(x

)]
i
= 0.
Se K
4
e innito, teremos que min 0, [q(x
k
)]
i
0 para k K
3
, logo
min 0, [q(x

)]
i
0. Portanto, em todos os casos chegamos ` a conclus ao
que g
P
(x

) = 0, ou seja, todo ponto limite e um ponto estacion ario.


No caso convexo, a situa c ao e mais favor avel ainda. Com efeito, como a
seq uencia q(x
k
) e mon otona decrescente os valores de q em todos os pon-
tos limite s ao iguais. Assim da existencia de um ponto limite estacion ario
(logo, minimizador global) se infere que todos os pontos limite s ao mini-
mizadores globais. Naturalmente, quando a Hessiana e denida positiva,
o minimizador global e unico, e a seq uencia x
k
completa converge a ele.
Outras propriedades deste algoritmo relacionadas com a degenera c ao dual
s ao estudadas em [12].
A eciencia do Algoritmo 4.3.1 em problemas de grande porte est a rela-
cionada com a possibilidade de acrescentar ou eliminar em poucas itera c oes
uma grande quantidade de canaliza c oes ativas. A elimina c ao de canaliza c oes
se d a quando a condi c ao (4.3.9) e satisfeita. Quanto menor seja a toler ancia
, mais impaciente ser a o algoritmo com a face na qual est a trabalhando,
e tratar a de sair dela rapidamente. Pelo contr ario, se e pr oximo de 1, a
tendencia ser a sair da face depois de esgot a-la totalmente, inibindo qualquer
possibilidade de retorno ` a mesma. Para problemas grandes, valores pequenos
de s ao recomend aveis. Por outro lado, as canaliza c oes se acrescentam
quando o algoritmo interno ca infactvel e se faz necess ario achar um ponto
na fronteira. No par agrafo anterior onde discutimos este assunto, mostramos
que existe um ponto da fronteira com as caractersticas desej aveis, mas adi-
antamos que o indicado n ao era o melhor possvel. De fato, no ponto ent ao
denido, via de regra, apenas uma restri c ao ativa e acrescentada, em rela c ao
ao ponto x
k
. Uma estrategia mais avida por restri c oes ativas se baseia
em buscas projetadas. A ideia e seguinte: suponhamos que z seja o ponto
infactvel produzido pelo algoritmo interno. Em vez de considerar a reta
70 CHAPTER 4. MINIMIZAC

AO DE QUADR

ATICAS
denida por x
k
e z, projetamos z na caixa , obtendo, digamos z
(1)
. Este
ponto projetado ter a como ativas todas as canaliza c oes que eram violadas
em z, que s ao, em geral, mais que as ativas no ponto do segmento que une x
k
com z. Assim, testamos se q(z
(1)
) < q(x
k
) e o aceitamos como x
k+1
em caso
positivo. Sen ao, substitumos z por, digamos, x
k
+ (z x
k
)/2 e repetimos
o processo. Se as redu c oes se repetem tantas vezes que o ponto z ca per-
tencendo a , nos conformamos com o ponto fronteira da reta [x
k
, z], que,
como vimos, satisfaz pelo menos a condi c ao requerida para convergencia.
Uma ultima observa c ao e a seguinte. O esquema do Algoritmo 4.3.1 e v alido
tanto para problemas de grande como de pequeno porte. A diferen ca entre
uns e outros radica apenas na escolha do algoritmo interno. Quando o prob-
lema e pequeno, e s ao usadas fatora c oes de Cholesky, e f acil ver que o c alculo
de x
k+1
no caso em que (4.3.9) se verica e quase sempre irrelevante, j a que,
independentemente de (x
k
), na maioria dos casos x
k+2
ser a o mesmo. Mas
isto e uma sutileza da qual n ao precisamos nos ocupar no momento.
72 CHAPTER 4. MINIMIZAC

AO DE QUADR

ATICAS
Chapter 5
Sistemas de equa c oes
nao-lineares
As condi c oes de otimalidade de primeira ordem dos problemas de otimiza c ao
s ao sistemas n ao lineares, onde as inc ognitas s ao as vari aveis do problema
e, ` as vezes, tambem os multiplicadores de Lagrange. Al`em disso, quando
se trata de minimiza c ao com restri c oes de desigualdade, apenas as solu c oes
que satisfazem determinadas inequa c oes s ao uteis. Portanto, de certo modo,
a arte da otimiza c ao est a includa na arte de resolver sistemas n ao lineares.
Por outro lado, quando F(x) = 0 (F : IR
n
IR
n
) e resol uvel, encontrar as
razes desse sistema e equivalente a achar o minimizador global de |F(x)|
onde | | e uma norma qualquer em IR
n
. Desse ponto de vista, a resolu c ao de
sistemas n ao lineares pode ser considerada um caso particular da otimiza c ao.
Entretanto, os problemas de otimiza c ao tem muita estrutura adicional, o
que justica a introdu c ao de metodos especcos, que transcendem a mera
aplica c ao de algoritmos para resolver sistemas. Com efeito, nas condi c oes
necess arias de primeira ordem, apenas as derivadas do problema est ao rep-
resentadas, e n ao, por exemplo, a fun c ao objetivo original. Como con-
seq uencia, os metodos para sistemas n ao lineares, quando aplicados ` as condi c oes
de otimalidade, tem diculdades em diferenciar minimizadores de maxi-
mizadores j a que, freq uentemente, as condi c oes de otimalidade para am-
bos tipos de extremos s ao as mesmas. Por outro lado, quando F(x) = 0 e
transformado em um problema de otimiza c ao atraves da norma da fun c ao
vetorial, aparecem estruturas pr oprias do sistema, como o fato da fun c ao
objetivo ser, geralmente, uma soma de quadrados.
Muitos problemas pr aticos de fsica, engenharia, economia e outras ciencias
s ao modelados de maneira muito conveniente por sistemas n ao lineares.

E
73
74 CHAPTER 5. SISTEMAS DE EQUAC

OES N

AO-LINEARES
usual, nesses casos, que alguma vers ao moderna de um velho algoritmo, o
metodo de Newton, seja usada com sucesso. Esse metodo, como outros
que veremos neste captulo, e, na sua forma b asica, um metodo iterativo
local, no sentido de que podemos garantir, apenas, a convergencia a uma
solu c ao supondo que o ponto inicial usado como aproxima c ao da mesma
j a e sucientemente bom. A praticidade desses metodos radica em que,
geralmente, a vis ao te orica que exige um ponto inicial muito bom e excessi-
vamente pessimista e, em muitos casos, os metodos locais convergem mesmo
se a aproxima c ao inicial n ao e boa. Um caso extremo e quando o sistema
n ao linear e, de fato, linear, e o metodo de Newton encontra a solu c ao em
uma itera c ao, independentemente do ponto inicial.
Nos metodos locais para sistemas n ao lineares encontramos os germes para
muitos algoritmos de otimiza c ao. Essa e a principal motiva c ao para seu
estudo independente neste livro. Algumas arma c oes b asicas, do tipo o
metodo de Newton tem convergencia quadr atica ou os metodos quase-
Newton s ao superlineares formam parte tanto do folclore de otimiza c ao
quanto de resolu c ao de sistemas. Aqui veremos, com certo rigor, em que
condi c oes tais arma c oes s ao v alidas.
Neste captulo, nosso problema ser a, sempre, resolver
F(x) = 0 , F : IR
n
IR
n
, F C
1
(IR
n
) .
Utilizaremos a seguinte nota c ao para a fun c ao F e para a matriz Jacobiana
J:
F(x) =
_
_
_
f
1
(x)
.
.
.
f
n
(x)
_
_
_ e J(x) = F

(x)=
_
_
_
f

1
(x)
.
.
.
f

n
(x)
_
_
_=
_
_
_
f
T
1
(x)
.
.
.
f
T
n
(x)
_
_
_.
5.1 O metodo de Newton
Em todos os cursos elementares de c alculo numerico, estuda-se o metodo de
Newton (tambem conhecido como Newton-Raphson) no contexto de achar
zeros de fun c oes. Sua generaliza c ao para sistemas foi proposta pela primeira
vez n ao por Newton, mas por Simpson, eminente matem atico do seculo
XVIII (ver [206]).
O princpio em que se baseia o metodo e paradigm atico na resolu c ao aprox-
imada de problemas matem aticos: o objetivo nal e um problema difcil
5.1. O M

ETODO DE NEWTON 75
(neste caso F(x) = 0), a solu c ao do qual vai sendo aproximada por uma
seq uencia de pontos x
k
. Dada cada aproxima c ao x
k
, constr oi-se, com a
informa c ao disponvel nesse ponto, um problema f acil, que sabemos re-
solver. A aproxima c ao x
k+1
e a solu c ao do problema f acil. O problema f acil
muda de uma itera c ao para a seguinte e, via de regra, sua solu c ao est a cada
vez mais pr oxima da solu c ao do problema difcil original.
No nosso problema atual, o kesimo problema f acil vem de considerar a
aproxima c ao de Taylor de primeira ordem de F(x), numa vizinhan ca do
ponto atual x
k
:
F(x) L
k
(x) = F(x
k
) +J(x
k
)(x x
k
) . (5.1.1)
Seguindo o princpio descrito acima, o ponto seguinte x
k+1
e uma solu c ao
de
L
k
(x) = 0 . (5.1.2)
Se J(x
k
) e n ao-singular, (5.1.2) tem solu c ao unica, e ent ao a itera c ao Newton
consiste em resolver um sistema linear:
J(x
k
)s
k
= F(x
k
)
x
k+1
= x
k
+s
k
.
(5.1.3)
A implementa c ao de (5.1.3) pressup oe o c alculo de J(x
k
), isto e, a avalia c ao
das derivadas primeiras das fun c oes f
i
(x), i = 1, . . . , n. Ate poucos anos
atr as, o c alculo de derivadas era considerado n ao s o difcil mas tambem
muito suscetvel a erros humanos. Atualmente, a possibilidade de falha hu-
mana pode ser evitada, atraves das diferencia c oes simb olica e autom atica.

E importante ressaltar que, em geral, quando se calculam efetivamente


as derivadas, muitos c alculos usados na avalia c ao da fun c ao podem ser
reaproveitados. A diferencia c ao autom atica e um conjunto de tecnicas que
produz um programa que avalia F(x) e J(x), com os reaproveitamentos
necess arios, partindo de um programa que avalia apenas F(x). Ver, por
exemplo, [105].
O metodo de Newton possui uma propriedade unica entre os algoritmos
para resolver sistemas: a invari ancia por mudan cas de coordenadas, tanto no
espa co domnio quanto no contra-domnio. No contra-domnio, isto signica
que as itera c oes de Newton aplicadas a F(x) = 0 s ao as mesmas que as
aplicadas ao sistema AF(x) = 0, para qualquer matriz A n ao-singular. A
invari ancia no domnio consiste em que, se x
k
e a seq uencia newtoniana
para F(x) = 0, ent ao os iterandos para o sistema F(Ax + b) = 0, com A
76 CHAPTER 5. SISTEMAS DE EQUAC

OES N

AO-LINEARES
n ao singular e com a aproxima c ao inicial Ax
0
+ b, s ao os pontos da forma
Ax
k
+b.
Uma varia c ao de (5.1.3) com praticamente as mesmas propriedades te oricas
e pr aticas que evita o enfadonho c alculo de derivadas e o chamado metodo
de Newton discreto. O esquema desse metodo e o descrito em (5.1.3)
com a exce c ao de que as derivadas consideradas n ao s ao as analticas mas
suas aproxima c oes por diferen cas nitas. Mais precisamente, a coluna j de
J(x
k
) e substituda por [F(x
k
+ he
j
) F(x
k
)]/h, onde h e um passo (de
discretiza c ao) pequeno e e
1
, . . . , e
n
e a base can onica de IR
n
. A imple-
menta c ao de uma itera c ao do metodo de Newton discreto, embora n ao exija
o c alculo de derivadas, demanda a avalia c ao da fun c ao F em n + 1 pon-
tos. Isto pode ser bastante caro computacionalmente, por isso, sempre que
possvel, as derivadas analticas devem ser utilizadas.
A resolu c ao do sistema linear (5.1.3) quando a matriz Jacobiana e n ao-
singular pode ser obtida via fatora c ao LU (varia c ao da cl assica elimina c ao
gaussiana), com um custo de O(
n
3
3
) opera c oes. Caso J(x
k
) seja singular,
deve-se adotar alguma estrategia especial, para n ao inibir o prosseguimento
do metodo. Ver, por exemplo, [101].
Portanto, o trabalho realizado em uma itera c ao do metodo de Newton con-
siste na avalia c ao de F em x
k
e suas derivadas, mais as O(
n
3
3
) opera c oes
necess arias para resolver (5.1.3). O termo em n
3
cresce de maneira dram atica
com o aumento do porte do problema. Felizmente, em muitos problemas
grandes e vi avel o uso de tecnicas de fatora c ao LU esparsa, utilizando-se
estruturas de dados adequadas com previs ao de possveis preenchimentos.
Por exemplo, se J(x
k
) tem estrutura tridiagonal, sua fatora c ao e a resolu c ao
de sistema correspondente podem ser efetuadas com O(n) opera c oes. Para
outros problemas de grande porte, no entanto, o metodo de Newton pode
se tornar invi avel.
5.2 Metodos quase-Newton
Se aceitamos a ideia de que o metodo de Newton e bom mas caro, parece
natural a introdu c ao de metodos quase t ao bons quanto Newton, mas
bem mais baratos. A maioria dos metodos quase-Newton foi estabelecida
com esses objetivos. Para ser (quase) t ao bons como Newton, esses metodos
devem ser parecidos com seu arquetipo sob v arios pontos de vista. Por isso,
deniremos como metodos quase-Newton aqueles algoritmos para sistemas
n ao lineares cuja itera c ao tem o seguinte formato:
5.2. M

ETODOS QUASE-NEWTON 77
B
k
s
k
= F(x
k
)
x
k+1
= x
k
+s
k
.
(5.2.1)
Assim, o pr oprio metodo de Newton e um metodo quase-Newton, o que e
esteticamente agrad avel. Entretanto, metodos quase-Newton pr aticos ser ao
apenas aqueles em que B
1
k+1
possa ser obtida facilmente a partir de B
1
k
,
isto e, com com n ao mais de O(n
2
) opera c oes. Dessa maneira, os c alculos em
(5.2.1) poder ao ser efetuados com um custo de O(n
2
) em termos de tempo
por itera c ao. Algumas implementa c oes de metodos quase-Newton trabal-
ham com fatora c oes das matrizes B
k
, e n ao com suas inversas. Nesses casos,
mostra-se que a fatora c ao de B
k+1
pode ser obtida a partir da fatora c ao de
B
k
em tempo proporcional a n
2
.
Desta forma, vemos que o esfor co computacional O(
n
3
3
) empregado por New-
ton diminui para O(n
2
) quando se utilizam metodos quase-Newton adequa-
dos. Infelizmente, esta redu c ao nos custos e paga com redu c ao na velocidade
de convergencia, conforme veremos na se c ao 5.4.
O metodo quase-Newton mais simples e o chamado metodo de Newton esta-
cion ario, que se obtem xando B
k
J(x
0
). Outra varia c ao bastante
tradicional e o metodo de Newton estacion ario com recome cos a cada m
itera c oes: Fixado um inteiro m, se k e m ultiplo de m, tomamos B
k
= J(x
k
).
Sen ao, B
k
= B
k1
. Com o objetivo de estabelecer um compromisso entre
a eciencia do metodo de Newton e o baixo custo do metodo de Newton
estacion ario, existem estudos te oricos para encontrar o m otimo no caso de
problemas especcos (ver [184]).
Uma outra famlia de metodos obedecendo a losoa quase-Newton e a dos
metodos secantes. Assim como o metodo de Newton e a generaliza c ao para
sistemas do algoritmo com o mesmo nome para achar zeros de fun c oes, os
metodos secantes s ao as generaliza c oes dos algoritmos assim denominados
para o problema unidimensional. Pensemos, como antes, que na itera c ao k
a fun c ao F(x) e aproximada por L
k
(x) = F(x
k
) + B
k
(x x
k
). Escrevendo
o mesmo tipo de aproxima c ao para a itera c ao k + 1, temos
F(x) L
k+1
(x) = F(x
k+1
) +B
k+1
(x x
k+1
).
A ideia secante consiste em impor que fun c ao linear L
k+1
(x) interpole a
fun c ao verdadeira nos pontos x
k+1
e x
k
. Em outras palavras,
L
k+1
(x
k+1
) = F(x
k+1
) e L
k+1
(x
k
) = F(x
k
).
A condi c ao L
k+1
(x
k+1
) = F(x
k+1
) e automaticamente satisfeita pela deni c ao
de L
k+1
. Quanto ` a condi c ao L
k+1
(x
k
) = F(x
k
), podemos ver que e equiva-
78 CHAPTER 5. SISTEMAS DE EQUAC

OES N

AO-LINEARES
lente a
F(x
k
) = F(x
k+1
) +B
k+1
(x
k
x
k+1
),
ou
B
k+1
s
k
= y
k
, (5.2.2)
onde y
k
= F(x
k+1
) F(x
k
) .
A equa c ao () e chamada equa c ao secante por motivos agora obvios. Podemos
pensar () como um sistema linear cuja inc ognita e a matriz. Assim interpre-
tado, o sistema tem n
2
vari aveis (as entradas de B
k+1
) e apenas n equa c oes.
Portanto, somente no caso n = 1 o sistema poder a ter solu c ao unica. Se
n > 1 e s
k
,= 0 haver a innitas matrizes B (uma variedade am em IR
nn
)
que satisfazem Bs
k
= y
k
. Diferentes escolhas dessa matriz denem difer-
entes metodos secantes. Por exemplo, se procuramos B
k+1
de maneira que
a diferen ca B
k
B
k+1
B
k
seja uma matriz de posto unit ario, teremos,
por (),
B
k
s
k
= y
k
B
k
s
k
e poderemos tomar
B
k
=
(y
k
B
k
s
k
)w
T
k
w
T
k
s
k
com w
k
IR
n
arbitr ario e n ao ortogonal a s
k
.
A escolha w
k
= s
k
dene o primeiro metodo de Broyden. Se w
k
= y
k
B
k
s
k
,
o metodo e conhecido como corre c ao simetrica de posto um.
O interessante neste tipo de corre c ao e que B
1
k+1
tambem pode ser obtida a
partir de B
1
k
mediante uma corre c ao de posto um. A express ao para esta
corre c ao pode ser calculada usando-se a f ormula de Sherman-Morrison [96],
com um custo, facilmente veric avel, da ordem de O(n
2
) opera c oes.
O fato de que B
1
k+1
B
1
k
seja uma matriz da forma u
k
v
T
k
faz com que
toda a informa c ao relativa a B
1
k+1
esteja contida em B
1
0
, e nos vetores
u
0
, v
0
, u
1
, v
1
, . . . , u
k
, v
k
. (Veremos isso com detalhe no exerccio 5.2.) Logo,
se B
0
e uma matriz sucientemente simples, de tal forma que a informa c ao
relativa a sua inversa ou sua fatora c ao LU seja armazen avel em poucas
posi c oes de mem oria (digamos, O(n)), toda a informa c ao necess aria para
multiplicar B
1
k+1
por um vetor ocupa O(kn) posi c oes, e o citado produto
pode ser efetuado com O(kn) opera c oes. Essa observa c ao fornece os elemen-
tos para a utiliza c ao de metodos secantes em problemas de grande porte.
5.3. M

ETODOS DE NEWTON TRUNCADOS 79


De fato, enquanto k e pequeno, o custo da itera c ao quase-newtoniana e,
essencialmente, O(n) e, com sorte, poucas itera c oes ser ao sucientes para
atingir a convergencia, de maneira que k, muitas vezes, n ao chega a ser
grande. Se o ndice da itera c ao k chega a ter valores que fazem a itera c ao
excessivamente cara, sempre cabe o recurso de recome car jogando fora a
informa c ao relativa a itera c oes velhas. Chamamos metodos quase-Newton
com mem oria limitada ` as implementa c oes dos metodos secantes para prob-
lemas de grande porte com armazenamento exclusivo dos vetores u

, v

que
denem as atualiza c oes das sucessivas aproxima c oes jacobianas B
k
.
Exerccio 5.1: Provar a f ormula de Sherman-Morrison: se A e n ao-singular
ent ao A+uv
T
e n ao singular se, e somente se, v
T
A
1
u ,= 1. Nesse caso,
(A +uv
T
)
1
= A
1

A
1
uv
T
A
1
1 +v
T
A
1
u
.
Usando essa f ormula, provar que quando se usa uma corre c ao de posto um
para gerar B
k+1
,
B
1
k+1
= B
1
k
+
(s
k
B
1
k
y
k
)w
T
k
w
T
k
B
1
k
y
k
B
1
k
.
Exerccio 5.2: Chamando u
k
=
s
k
B
1
k
y
k
w
T
k
B
1
k
y
k
, comprovar que
B
1
k
= (I +u
k1
z
T
k1
) . . . (I +u
0
z
T
0
)B
1
0
, k = 1, 2, . . .
isto e, na resolu c ao de (5.2.1) basta armazenar os vetores u
0
, z
0
, . . . , u
k1
, z
k1
.
Exerccio 5.3: Caracterizar geometricamente o primeiro metodo de Broy-
den, mostrando que |B
k+1
B
k
|
F
|BB
k
|
F
, para toda matriz B IR
nn
tal que Bs
k
= y
k
. | |
F
e a norma de Frobenius: para A IR
mn
,
|A|
F
= (

m
i=1

n
j=1
a
2
ij
)
1
2
. Provar que a mesma propriedade vale usando a
norma euclidiana em vez da norma de Frobenius.
5.3 Metodos de Newton truncados
Quando n e muito grande, e a estrutura da matriz J(x) n ao e favor avel
para uma fatora c ao LU esparsa, a resolu c ao do sistema linear newtoniano
(5.1.3) por metodos diretos ca impratic avel. Os metodos quase-Newton
80 CHAPTER 5. SISTEMAS DE EQUAC

OES N

AO-LINEARES
com mem oria limitada s ao uma alternativa eciente em muitos casos, como
vimos na se c ao anterior. No entanto, nesses metodos, necessitamos que
B
1
0
(ou uma fatora c ao de B
0
) seja simples, o que, freq uentemente, n ao e
o caso para matrizes pr oximas de J(x
0
). Isso signica que, ` as vezes, para
implementar um metodo quase-Newton com mem oria limitada, precisamos
come car com uma matriz B
0
bem diferente de um Jacobiano verdadeiro,
fazendo com que as primeiras itera c oes do metodo quase-Newton (sobretudo
a primeira) sejam quase aleat orias. Por exemplo, suponhamos que nosso
problema original e resolver o problema de contorno tridimensional
u +f(u, x, y, z) = 0, (5.3.1)
onde e o operador Laplaciano, u e a fun c ao inc ognita denida em [0, 1]
[0, 1] [0, 1] e seus valores no contorno do cubo s ao conhecidos. A dis-
cretiza c ao por diferen cas nitas de (5.3.1) dene um sistema n ao linear de
(N1)
3
equa c oes e inc ognitas, onde N = 1/h e h e o passo da discretiza c ao.
Assim, se h = 0.01, teremos 970299 vari aveis e componentes do sistema. A
matriz Jacobiana deste sistema e esparsa. Entretanto, se adotamos a ordem
usual lexicogr aca para as inc ognitas, seus elementos n ao nulos ocupam as
seguintes posi c oes:
(a) As tres diagonais principais;
(b) Duas subdiagonais a dist ancia N da diagonal principal;
(c) Duas subdiagonais a dist ancia N
2
da diagonal principal.
Devido a essa estrutura, a fatora c ao LU da matriz ocupa O(N
3
) posi c oes
de mem oria, o que e intoler avel, tanto do ponto de vista de espa co quanto
do n umero de opera c oes que e necess ario para sua manipula c ao. Logo, o
metodo de Newton n ao pode ser utilizado, e os metodos quase-Newton com
mem oria limitada s ao for cados a come car com uma matriz B
0
bastante afas-
tada da Jacobiana verdadeira.
Os metodos de Newton truncados representam um ponto de vista radical-
mente diferente. Em vez de resolver (5.1.3), como Newton faz, ou substi-
tuir esse sistema por outro mais manej avel, no estilo quase-Newton, esses
metodos abordam a resolu c ao do sistema linear newtoniano atraves de metodos
iterativos lineares que, como sabemos, s ao geralmente econ omicos em termos
de mem oria e custo computacional. Em outras palavras, para resolver
J(x
k
)s = F(x
k
) (5.3.2)
utiliza-se uma seq uencia s
0
, s
1
, s
2
, . . ., produzida por um metodo iterativo
linear, onde os sucessivos iterandos s

s ao calculados com um custo muito


5.3. M

ETODOS DE NEWTON TRUNCADOS 81


moderado. V arios algoritmos para resolver sistemas lineares podem ser us-
ados. Se J(x
k
) e simetrica e denida positiva, resolver (5.3.2) e equivalente
a
Minimizar
1
2
s
T
J(x
k
)s +F(x
k
)
T
s. (5.3.3)
O metodo dos gradientes conjugados, que estudamos no Captulo 4, e, geral-
mente, o usado para resolver iterativamente (5.3.3).
Se J(x
k
) e n ao-singular mas n ao e, necessariamente, simetrica a resolu c ao
de (5.3.2) e equivalente ` a de
Minimizar
1
2
|J(x
k
)s +F(x
k
)|
2
2
. (5.3.4)
A fun c ao objetivo de (5.3.4) tambem e uma quadr atica estritamente convexa,
como a de (5.3.3), portanto o metodo dos gradientes conjugados tambem
pode ser empregado para resolver esse problema. Entretanto, a matriz Hes-
siana da fun c ao objetivo de (5.3.4) e J(x
k
)
T
J(x
k
), e seu n umero de condi c ao
e o quadrado do n umero de condi c ao de J(x
k
). Isso signica que, quando
J(x
k
) e simetrica e denida positiva, embora tanto (5.3.3) quanto (5.3.4)
possam ser empregados, o uso do primeiro e prefervel do ponto de vista
da estabilidade numerica. Por outro lado, o potencialmente alto n umero de
condi c ao da Hessiana de (5.3.4) faz com que metodos alternativos a gradi-
entes conjugados sejam introduzidos, com a expectativa de um desempenho
independente do condicionamento de J(x
k
)
T
J(x
k
). O algoritmo GMRES
[179] e, possivelmente, o mais utilizado atualmente para resolver problemas
do tipo (5.3.4). A ideia desse metodo e muito an aloga ` a ideia geometrica
dos gradientes conjugados. Trata-se de minimizar a quadr atica nos suces-
sivos subespa cos de Krylov gerados por F(x
k
), J(x
k
)F(x
k
), J(x
k
)
2
F(x
k
), . . ..
Contrariamente a gradientes conjugados, em GMRES as itera c oes n ao po-
dem ser simplicadas signicativamente, de maneira que a implementa c ao do
metodo se baseia diretamente na ideia geometrica e o custo de cada itera c ao
e crescente. Por isso, as implementa c oes correntes procedem descartando in-
forma c ao de passos velhos, e toda uma famlia de metodos pode ser denida
de acordo ao volume de informa c ao descartada.
Outras alternativas promissoras mas pouco testadas para (5.3.3) ou (5.3.4)
s ao os metodos de gradientes com retardos, introduzidos em [80] como gen-
eraliza c oes do metodo Barzilai-Borwein [8], [170], e o pr oprio metodo de
Broyden aplicado ` a resolu c ao de sistemas lineares [57], [141]. Os metodos
de gradientes com retardos s ao algoritmos de mem oria mnima (apenas as
dire c oes dos gradientes s ao usadas), onde o passo de m axima descida e sub-
stitudo por um coeciente que aumenta radicalmente sua eciencia. O
82 CHAPTER 5. SISTEMAS DE EQUAC

OES N

AO-LINEARES
metodo de Broyden como metodo iterativo linear deve ser implementado
com mem oria limitada, j a que, em estado puro, seu custo cresce a cada it-
era c ao.
Quando se fala de metodos iterativos lineares, a possibilidade de uma con-
vergencia muito lenta est a sempre presente. Por isso, freq uentemente sua
aplica c ao e precedida pela manipula c ao denominada precondicionamento.
Para xar ideias, o precondicionamento ` a esquerda do sistema (5.3.2) con-
siste em sua transforma c ao em um sistema equivalente
H
k
J(x
k
)s = H
k
F(x
k
) (5.3.5)
de maneira que (5.3.5) e mais f acil que (5.3.2) para o metodo iterativo linear
escolhido. A matriz H
k
e a precondicionadora de J(x
k
) e pretende-se que
H
k
J(x
k
) I. (5.3.6)
Naturalmente, a precondicionadora ideal seria J(x
k
)
1
mas, nos casos em
quest ao, essa matriz n ao pode ser calculada. Uma boa precondicionadora
deve ser, de fato, f acil de computar e manipular, objetivo, em geral, con-
itante com (5.3.6). Infelizmente, n ao e possvel fornecer receitas univer-
salmente v alidas para o precondicionamento de sistemas lineares. Ver [137],
[138].
Qualquer que seja a escolha do metodo iterativo linear para resolver (5.3.2),
deve ser decidido quando um iterando s

e uma aproxima c ao sucientemente


boa do passo newtoniano J(x
k
)
1
F(x
k
).

E oportuno lembrar que, a menos
que x
k
esteja muito pr oximo da solu c ao, o subproblema F(x
k
)+J(x
k
)(x
x
k
) = 0, resolvido por (5.3.2), e bastante diferente do problema original
F(x) = 0. Portanto, uma precis ao muito alta na resolu c ao do subprob-
lema, e, n ao apenas anti-econ omica como, provavelmente, in util. Dembo,
Eisenstat e Steihaug [48], sugeriram um criterio de parada para o algoritmo
iterativo linear baseado no resduo |J(x
k
)s

+F(x
k
)|. O criterio consiste em
interromper o algoritmo linear quando este resduo (em uma norma qual-
quer) e uma fra c ao
k
da norma do termo independente F(x
k
) (que, por
outro lado, nada mais e do que o resduo para s = 0). Veremos, na pr oxima
se c ao, que existem raz oes te oricas para fazer
k
efetivamente dependente de
k, embora, na pr atica a fra c ao m agica
k
0.1 seja geralmente preferida.
Resumindo, dada uma seq uencia
k
(0, 1), o criterio de parada introduzido
em [48] produz incrementos que satisfazem
|J(x
k
)s
k
+F(x
k
)|
k
|F(x
k
)|, (5.3.7)
5.4. CONVERG

ENCIA LOCAL 83
onde | | e uma norma qualquer em IR
n
. Os metodos baseados em (5.3.7)
e x
k+1
= x
k
+ s
k
costumam ser chamados Newton-inexatos. Quando o
incremento s
k
e calculado como uma das itera c oes de um algoritmo iterativo
linear falamos de metodos de Newton truncados. Na pr oxima se c ao vere-
mos propriedades te oricas dos algoritmos para resolver sistemas n ao lineares
baseados em (5.3.7).
5.4 Convergencia local
Nas se c oes anteriores apresentamos os metodos de Newton, quase-Newton
e Newton truncados. Agora veremos resultados de convergencia local rela-
cionados com esses algoritmos. Diremos que um metodo possui convergencia
local em rela c ao a determinado tipo de solu c oes do problema considerado
se, dada uma solu c ao x

desse tipo, existe > 0 tal que toda seq uencia x


k

gerada pelo algoritmo onde |x


0
x

| , converge para x

. Os resultados
de convergencia local est ao quase sempre associados a resultados de ordem
de convergencia. Diremos que uma seq uencia x
k
converge linearmente
para x

relativamente ` a norma | | se existem k


0
^ e r (0, 1) tais que,
para todo k k
0
,
|x
k+1
x

| r|x
k
x

|. (5.4.1)
A convergencia de x
k
para x

ser a chamada superlinear se existe uma


seq uencia r
k
> 0 tendendo a 0, tal que
|x
k+1
x

| r
k
|x
k
x

| (5.4.2)
para todo k = 0, 1, 2, . . .. Pela equivalencia das normas em IR
n
podemos ver
que a convergencia superlinear de uma seq uencia e independente da norma.
Ao mesmo tempo, se x
k
x

superlinearmente, ent ao dado qualquer r


(0, 1) e qualquer norma em IR
n
, a desigualdade (5.4.1) acabar a se vericando
para k
0
sucientemente grande, ou seja, teremos convergencia linear.
Se x
k
x

e existem k
0
^, c > 0 e p > 0 tais que, para todo k k
0
,
|x
k+1
x

| c|x
k
x

|
p+1
, (5.4.3)
diremos que x
k
converge para x

com ordem pelo menos p + 1. Se p = 1,


falaremos de convergencia quadr atica. Pela equivalencia de normas, (5.4.3)
tambem e independente da norma usada. Alem disso, e f acil ver que este
tipo de convergencia implica a convergencia superlinear. Quanto maior seja
p mais rapidamente x
k
tender a a x

. Com efeito, se, para uma itera c ao


84 CHAPTER 5. SISTEMAS DE EQUAC

OES N

AO-LINEARES
k, o erro |x
k
x

| e da ordem de 0.1, ent ao, na itera c ao seguinte ser a


da ordem de c0.1
p+1
, e, depois de m itera c oes ser a c0.1
m(p+1)
. Portanto, o
n umero de dgitos corretos das componentes da solu c ao crescer a rapidamente
se p 1. Por isso, costuma-se dizer que, na convergencia quadr atica, o
n umero de decimais corretos e duplicado em cada itera c ao. Assim, o tipo
de convergencia mais desej avel e a de ordem p + 1 com o maior valor de
p possvel. Nas seq uencias produzidas por metodos numericos geradas em
um computador, a convergencia quadr atica (ou melhor que quadr atica) e
observ avel no r apido crescimento dos dgitos repetidos de uma itera c ao para
outra, ou, equivalentemente, o n umero de decimais iguais a zero do erro. A
convergencia superlinear e mais difcil de observar empiricamente. Via de
regra, em seq uencias teoricamente superlineares (mas n ao quadr aticas), o
erro aparece diminuindo de maneira consistente, mas n ao e usual observar
uma queda mon otona para zero do quociente entre dois erros consecutivos.
J a a aprecia c ao da convergencia linear depende integralmente da taxa r.
Alguns metodos de tipo ponto xo para resolver sistemas lineares produzem
seq uencias com uma taxa linear de convergencia t ao pr oxima de 1, que sua
utilidade e praticamente nula. Por outro lado, se a taxa for menor que,
digamos, 0.5, a convergencia pode ser indistinguvel, nos experimentos, do
comportamento superlinear.
Nesta se c ao assumiremos as seguintes hip oteses gerais: F : IR
n
, com
IR
n
aberto e convexo e F C
1
(). Portanto, para todo x ,
lim
h0
|F(x +h) F(x) J(x)h|
|h|
= 0. (5.4.4)
Suporemos tambem que x

e tal que F(x

) = 0 e J(x

) e n ao-singular.
Para a prova da convergencia quadr atica do metodo de Newton assumimos
que existem L > 0 e p > 0 tais que, em uma vizinhan ca de x

,
|J(x) J(x

)| L|x x

|
p
(5.4.5)
onde | | e uma norma qualquer em IR
n
bem como a norma de matrizes
consistente associada em IR
nn
.
Exerccio 5.4: Usando (5.4.5), mostrar que para todo x, z ,
|F(z) F(x) J(x

)(z x)| L|x z| max|x x

|
p
, |z x

|
p
.
Exerccio 5.5: Usando (5.4.5), mostrar que para todo x ,
|F(x) J(x

)(x x

)|
L
1 +p
|x x

|
p+1
.
5.4. CONVERG

ENCIA LOCAL 85
5.4.1 O teorema das duas vizinhan cas
O objetivo desta subse c ao e mostrar que, se x
0
est a pr oximo de x

e todas
as matrizes B
k
est ao perto de J(x

), a seq uencia gerada por x


k+1
= x
k

B
1
k
F(x
k
) converge para x

com taxa linear. Esse resultado ser a aplic avel


aos metodos quase-Newton em geral, e, especicamente, ao pr oprio metodo
de Newton. Usaremos de maneira essencial que todas as matrizes que se
encontram numa certa vizinhan ca da matriz n ao-singular J(x

) s ao n ao-
singulares. No Lema 5.4.1 vamos precisar o tamanho dessa vizinhan ca. Um
resultado previo, de algebra, e o chamado Lema de Banach: dada uma norma
arbitr aria | | em IR
n
, que denota tambem a norma matricial subordinada,
se |A| < 1, ent ao I +A e n ao-singular e
1
1 +|A|
|(I +A)
1
|
1
1 |A|
.
Exerccio 5.6: Demonstrar o Lema de Banach.
Lema 5.4.1
Se B IR
nn
e tal que |B J(x

)|
1
2|J(x

)
1
|
ent ao B
1
existe e
satisfaz |B
1
| 2|J(x

)
1
|.
Prova: Seja A = BJ(x

)
1
I = [BJ(x

)]J(x

)
1
. Pela consistencia da
norma segue que
|A| = |[B J(x

)]J(x

)
1
| |[B J(x

)]| |J(x

)
1
|
1
2
< 1 ,
ou seja, estamos nas condi c oes do Lema de Banach e, ent ao BJ(x

)
1
e
n ao-singular. Logo, existe B
1
e vale [BJ(x

)
1
]
1
= J(x

)B
1
. Alem
disso,
|J(x

)B
1
|
1
1 |BJ(x

)
1
I|
2 .
Como |B
1
| = |J(x

)
1
J(x

)B
1
| |J(x

)
1
| |J(x

)B
1
|, segue que
|B
1
| 2|J(x

)
1
|. QED
86 CHAPTER 5. SISTEMAS DE EQUAC

OES N

AO-LINEARES
Lema 5.4.2 - das duas vizinhan cas.
Para cada x e B IR
nn
, denimos a fun c ao (x, B) = x B
1
F(x).
Seja r (0, 1). Existem
1
=
1
(r),
1
=
1
(r) > 0 tais que se |x
x

|
1
, |B J(x

)|
1
, a fun c ao (x, B) est a bem denida e satis-
faz |(x, B) x

| r|x x

|.
Prova: Seja

1
=
1
2|J(x

)
1
|
. Pelo Lema 5.4.1, se |B J(x

)|

1
ent ao
B
1
existe e satisfaz
|B
1
| 2|J(x

)
1
| . (5.4.6)
Assim, (x, B) est a bem denida se x e
1

1
.
Agora
|(x, B) x

| A
1
+A
2
(5.4.7)
onde
A
1
= |x x

B
1
J(x

)(x x

)| e A
2
= |B
1
[F(x) J(x

)(x x

)]| .
Por (5.4.6), temos que
A
1
= |x x

B
1
J(x

)(x x

) B
1
B(x x

) +B
1
B(x x

)|
= |x x

B
1
B(x x

) +B
1
[B J(x

)](x x

)|
= |B
1
[B J(x

)](x x

)|
|B
1
| |B J(x

)| |x x

|
2|J(x

)
1
|
1
|x x

| . (5.4.8)
Pela diferenciabilidade de F e por (5.4.6), temos:
A
2
|B
1
| |F(x) J(x

)(x x

)| 2|J(x

)
1
| (x) (5.4.9)
onde lim
xx
(x)
|x x

|
= 0 .
Seja
1
tal que
2
_

1
+ sup
xx
1
_
(x)
|x x

|
_
_

r
|J(x

)
1
|
. (5.4.10)
5.4. CONVERG

ENCIA LOCAL 87
Ent ao, para |B J(x

)|
1
e |x x

|
1
, por (5.4.7)(5.4.10) temos
|(x, B) x

| 2|J(x

)
1
|
1
|x x

| + 2|J(x

)
1
| (x)
= 2|J(x

)
1
|
_

1
+
(x)
|x x

|
_
|x x

|
r|x x

| . QED
Teorema 5.4.3 - das duas vizinhan cas.
Seja r (0, 1). Existem = (r) e = (r) tais que, se |x
0
x

| e
|B
k
J(x

)| para todo k, ent ao a seq uencia gerada por x


k+1
= x
k

B
1
k
F(x
k
) est a bem denida, converge a x

e |x
k+1
x

| r|x
k
x

| para
todo k.
Prova: Considerando a fun c ao (x, B) = x B
1
F(x), temos x
k+1
=
(x
k
, B
k
), k = 0, 1, 2, . . . . A prova segue por um argumento de indu c ao e
pelo Lema 5.4.2. QED
Uma conseq uencia imediata do Teorema das duas vizinhan cas e a con-
vergencia local linear do metodo de Newton estacion ario. Com efeito, dado
r (0, 1), pela continuidade das derivadas de F, existe
2
tal que |J(x
0
)
J(x

)| (r) sempre que |x


0
x

|
2
. Tomemos, ent ao como o
mnimo entre (r) e
2
, onde (r) e (r) s ao os denidos no Teorema das
duas vizinhan cas. Ent ao, se |x
0
x

| teremos |J(x
0
) J(x

)| (r)
e, portanto, |B
k
J(x

)| (r) para todo k. Logo, estamos dentro das


hip oteses do teorema, e, em conseq uencia, a seq uencia converge com a taxa
linear r.

E importante observar que esta pequena prova foi iniciada com
um r (0, 1) arbitr ario. Portanto, a taxa de convergencia linear do metodo
de Newton estacion ario poderia ser arbitrariamente pequena, tomando x
0
sucientemente pr oximo de x

.
5.4.2 Convergencia quadratica de Newton
A aplica c ao do Teorema das duas vizinhan cas ao metodo de Newton e bas-
tante natural. No entanto, a ultima observa c ao da subse c ao anterior, per-
mite vislumbrar que, para este metodo, resultados mais fortes s ao possveis.
Aqui vamos usar a condi c ao (5.4.5) para provar que a ordem de convergencia
de Newton e, pelo menos p + 1.

E usual que (5.4.5) seja v alida com p = 1,
por isso chamaremos essa propriedade de convergencia quadr atica. As
88 CHAPTER 5. SISTEMAS DE EQUAC

OES N

AO-LINEARES
situa c oes em que (5.4.5) vale para algum p (0, 1) mas n ao para p = 1 s ao
um tanto patol ogicas, e n ao tem maior import ancia pr atica. No entanto, e
interessante reetir sobre o caso em que (5.4.5) e satisfeita para algum p > 1.
Por exemplo, se p = 2, essa condi c ao signica que as derivadas segundas de
F existem e s ao nulas em x

. Nesse caso, a convergencia de Newton e de


ordem 3. Assim, quanto maior seja a ordem das derivadas que se anulam
na solu c ao, acima das segundas, Newton convergir a mais rapidamente. No
caso extremo, todas as derivadas de F s ao nulas em x

o que, quase sempre,


indica que F e uma fun c ao linear em uma vizinhan ca da solu c ao. Nesse caso,
a ordem de convergencia p + 1 para todo p signica que x
1
ser a igual a x

,
ou seja, o metodo se comportar a como um metodo direto, que e exatamente
o que se espera dele quando aplicado a uma fun c ao linear.
Teorema 5.4.4 - Convergencia quadr atica de Newton.
Suponhamos que F, L, p satisfazem (5.4.5). Ent ao existem , > 0 tais que
para todo x
0
vericando |x
0
x

| , a seq uencia gerada por


x
k+1
= x
k
J(x
k
)
1
F(x
k
), k = 0, 1, . . .
est a bem denida, converge a x

e satisfaz
|x
k+1
x

| |x
k
x

|
p+1
.
Prova: Escolhemos um r arbitr ario entre 0 e 1, digamos, r = 0.5. Seja

1
=
1
(r), denido pelo Lema das duas vizinhan cas. Pela continuidade de
J(x), existe
2
> 0 tal que, sempre que |xx

|
2
, temos |J(x)J(x

)|

1
(r). Tomamos
= mnimo
1
,
2
,
logo |J(x
0
) J(x

)|
1
(r). Ent ao, pelo Lema das duas vizinhan cas,
|x
1
x

| r|x
0
x

| <
1
.
Portanto, |J(x
1
) J(x

)|
1
(r) e o raciocnio pode ser repetido, induti-
vamente, para provar que x
k
converge para x

linearmente com taxa r.


Agora, por (5.4.6), temos que, para todo k,
|x
k+1
x

| = |x
k
x

J(x
k
)
1
F(x
k
)|
= |J(x
k
)
1
(F(x
k
) J(x
k
)(x

x
k
))|
2|J(x

)
1
| |F(x
k
) J(x
k
)(x
k
x

)|.
5.4. CONVERG

ENCIA LOCAL 89
Mas, por (5.4.5) e pelo resultado do exerccio 5.5,
|F(x
k
) J(x
k
)(x
k
x

)| [F(x
k
) J(x

)(x
k
x

)[ +L|x
k
x

|
p+1
2L|x
k
x

|
p+1
.
Portanto,
|x
k+1
x

| 4|J(x

)
1
|L|x
k
x

|
p+1
,
o que completa a prova. QED
Sutilezas maiores que as do Teorema 5.4.4 s ao possveis. De fato, o leitor
poder a vericar que, mesmo sem supor a condi c ao (5.4.5), mas usando a
diferenciabilidade de F, a convergencia de Newton e superlinear.
5.4.3 Convergencia dos metodos quase-Newton
O Teorema das duas vizinhan cas e um elemento essencial na teoria de con-
vergencia dos metodos quase-Newton. Com efeito, ele nos diz que em um
metodo desse tipo, se o ponto inicial est a sucientemente perto da solu c ao
e todas as matrizes B
k
est ao pr oximas de J(x

) a convergencia ocorre com


taxa linear. A maneira mais f acil de satisfazer as hip oteses desse teorema
e escolher uma unica vez B
0
pr oxima de uma Jacobiana e tomar todas as
outras B
k
iguais a B
0
.

E o que o metodo de Newton estacion ario faz. A
maioria dos metodos quase-Newton tenta uma op c ao melhor. Por exemplo,
os metodos secantes denem B
k+1
= B
k
+ B
k
para todo k, onde, quase
sempre, B
k
tem posto pequeno. Portanto, mesmo que B
0
esteja perto de
J(x

), poderamos ter o azar de que alguma das B


k
s posteriores cassem
fora da vizinhan ca que garante a convergencia linear. Em outras palavras,
B
k+1
pode sofrer uma deteriora c ao em rela c ao a B
k
. Para garantir que, ape-
sar dessas possveis deteriora c oes, todas as B
k
estejam na boa vizinhan ca
de que fala o Teorema 5.4.3, s ao provados, para os distintos metodos quase-
Newton, teoremas de deteriora c ao limitada. Como seu nome indica, esses
teoremas estabelecem que, embora a dist ancia entre B
k+1
e J(x

) possa ser
maior que |B
k
J(x

)|, o grau de degenera c ao n ao pode ser t ao grande


ao ponto de comprometer a convergencia. Existem diferentes teoremas de
deteriora c ao limitada para os distintos metodos quase-Newton. Enfoques
unicados s ao discutidos em [55], [134] e [135]. Uma propriedade de deteri-
ora c ao limitada tpica e:
|B
k+1
J(x

)| |B
k
J(x

)| +c|x
k
x

| (5.4.11)
90 CHAPTER 5. SISTEMAS DE EQUAC

OES N

AO-LINEARES
para algum c > 0. A desigualdade (5.4.11) estabelece que a deteriora c ao de
B
k+1
em rela c ao a B
k
e de ordem n ao maior que o erro na itera c ao k. O
metodo de Broyden, do qual falamos na Se c ao 5.3, satisfaz uma propriedade
desse tipo. Para mostrar como ela contribui para n ao corromper a con-
vergencia de um metodo quase-Newton, vamos provar o seguinte teorema.
Teorema 5.4.5
Consideramos o metodo quase-Newton denido por x
k+1
= x
k
B
1
k
F(x
k
),
onde as matrizes B
k
satisfazem (5.4.11). Seja r (0, 1). Ent ao, existem
, > 0 tais que, se |x
0
x

| e |B
0
J(x

)| , a seq uencia est a bem


denida, converge a x

e satisfaz |x
k+1
x

| r|x
k
x

| para todo k.
Prova: Sejam
1
= (r) e
1
= (r) os denidos no Teorema das duas
vizinhan cas. Sejam
1
e
1
tais que
+
c
1 r

1
. (5.4.12)
Vamos provar por indu c ao que
|x
k
x

| r|x
k1
x

| r
k

e
|B
k
J(x

)| +c(1 +r +. . . +r
k1
).
O primeiro passo e obvio. Vejamos o passo indutivo. Por hip otese indutiva
temos:
|B
k
J(x

)| +c(1 +r +. . . +r
k1
)
+
c
1 r

1
.
Como |x
k
x

| r
k
, o Teorema das duas vizinhan cas implica
|x
k+1
x

| r|x
k
x

| r
k+1
.
Agora, por (5.4.11),
|B
k+1
J(x

)| |B
k
J(x

)| +c|x
k
x

|
+c(1 +r +. . . +r
k1
) +cr
k
,
de onde a tese segue-se trivialmente. QED
5.4. CONVERG

ENCIA LOCAL 91
A maioria dos resultados de deteriora c ao limitada para metodos quase-
Newton s ao obtidos usando propriedades geometricas das f ormulas de atual-
iza c ao das B
k
s. O exemplo mais claro e fornecido pelo metodo de Broyden.
Como vimos no Exerccio 5.3, nesse algoritmo, B
k+1
e a proje c ao segundo
a norma de Frobenius de B
k
na variedade am das matrizes que satisfazem
a equa c ao secante Bs
k
= y
k
. Se J(x

) satiszesse essa equa c ao, a dist ancia


entre B
k+1
e J(x

) seria menor ou igual ` a dist ancia entre B


k
e J(x

) e o
princpio (5.4.11) seria satisfeito com c = 0. Infelizmente, em geral, J(x

)
n ao e uma das matrizes que satisfazem a equa c ao secante da itera c ao k. No
entanto, se denimos

B
k
=
_
1
0
J(x
k
+t(x
k+1
x
k
))dt, (5.4.13)
podemos vericar, com o teorema fundamental do c alculo, que

B
k
s
k
= y
k
.
Portanto,
|B
k+1


B
k
| |B
k


B
k
|.
Assim,
|B
k+1
J(x

)| |B
k+1


B
k
| +|

B
k
J(x

)|
|B
k


B
k
| +|

B
k
J(x

)|
|B
k
J(x

)| + 2|

B
k
J(x

)|. (5.4.14)
Por (5.4.13), e usando (5.4.5), podemos vericar que |

B
k
J(x

)| = O(|x
k

|), portanto a propriedade (5.4.11) segue de (5.4.14).


A interpreta c ao de muitas f ormulas secantes como proje c oes permite, geral-
mente, provar outra propriedade importante:
lim
k
|B
k+1
B
k
| = 0. (5.4.15)
A ideia e usar, em cada itera c ao, o Teorema de Pit agoras. Apenas neste
par agrafo, | | ser a a norma de Frobenius,
|B
k+1
B
k
|
2
= |B
k


B
k
|
2
|B
k+1


B
k
|
2
. (5.4.16)
Portanto,
|B
k+1
B
k
|
2
= |B
k
J(x

)|
2
|B
k+1
J(x

)|
2
+O(|x
k
x

|). (5.4.17)
92 CHAPTER 5. SISTEMAS DE EQUAC

OES N

AO-LINEARES
Assim, supondo que o princpio de deteriora c ao limitada j a permitiu provar
a convergencia com taxa linear r da seq uencia x
k
, e somando todas as
igualdades (5.4.17),

k=0
|B
k+1
B
k
|
2
|B
0
J(x

)|
2
+
|x
0
x

|
1 r
, (5.4.18)
logo, a serie da esquerda em (5.4.18) converge e, portanto, (5.4.15) se verica.
Por enquanto nos limitamos a mostrar que os metodos quase-Newton com
deteriora c ao limitada n ao s ao piores que o mais simples dos metodos quase-
Newton, onde B
k
n ao muda nunca e, portanto, a deteriora c ao e nula. Se
os metodos secantes n ao pudessem oferecer mais do que isso, nunca teriam
sido populares. De fato, veremos agora que, via de regra, os metodos se-
cantes n ao apenas convergem com a taxa linear r de que fala o teorema das
duas vizinhan cas mas, tambem, s ao superlineares. A ferramenta fundamen-
tal para essa prova e o seguinte teorema, cujo resultado e conhecido como
condi c ao Dennis-More.
Teorema 5.4.6 - Condi c ao Dennis-More.
Suponhamos que F satisfaz as hip oteses gerais, incluindo (5.4.5), a seq uencia
gerada por
x
k+1
= x
k
B
1
k
F(x
k
)
est a bem denida, converge a x

, e satisfaz
lim
k
|[B
k
J(x

)]s
k
|
|s
k
|
= 0 . (5.4.19)
Ent ao a convergencia e superlinear.
Antes de provar a condi c ao Dennis-More vamos reetir sobre seu signi-
cado. Uma primeira observa c ao e que o metodo de Newton claramente
satisfaz (5.4.19) e que, ainda mais, qualquer seq uencia de matrizes B
k
tal
que B
k
J(x

) tambem satisfaz essa condi c ao. Logo, por este teorema, o


metodo de Newton estacion ario com recome cos, do qual falamos na Se c ao
5.2, e superlinear. No entanto, a condi c ao Dennis-More exige menos que a
convergencia de B
k
para J(x

). Com efeito, o que deve tender para zero


n ao e a diferen ca B
k
J(x

) mas a aplica c ao dessa diferen ca na dire c ao


incremental s
k
/|s
k
|. Ou seja, para efeitos de convergencia superlinear, e
indiferente o que B
k
fa ca com dire c oes diferentes dos incrementos e apenas
a a c ao das matrizes sobre os s
k
s tem import ancia. Assim, um metodo com
5.4. CONVERG

ENCIA LOCAL 93
essas condi c oes pode ser superlinearmente convergente, mesmo com as ma-
trizes B
k
convergindo a algo diferente da Jacobiana na solu c ao. No Teorema
5.4.6 apresentamos a condi c ao Dennis-More apenas como uma condi c ao su-
ciente. Na verdade, o resultado e bem mais elegante (ver [52], [54]): a
condi c ao (5.4.19) e tambem necess aria para a convergencia superlinear dos
metodos quase-Newton e o fato de que x

e uma raiz pode ser deduzido dela


e n ao apenas assumido como hip otese.
Na prova do Teorema Dennis-More, faremos uso de um lema que, breve-
mente, mostra que |F(x)| pode ser utilizado como uma medida da dist ancia
entre x e x

quando J(x

) e n ao-singular:
Lema 5.4.7
Existem , c
1
, c
2
> 0 tais que, sempre que |x x

| ,
c
1
|x x

| |F(x)| c
2
|x x

|.
Prova: Pela diferenciabilidade de F,
lim
xx
|F(x) J(x

)(x x

)|
|x x

|
= 0.
Mas
|x x

| = |J(x

)
1
J(x

)(x x

)| |J(x

)
1
||J(x

)(x x

)|,
portanto
lim
xx
|F(x) J(x

)(x x

)|
|J(x

)
1
||J(x

)(x x

)|
= 0.
Logo,
lim
xx
|F(x) J(x

)(x x

)|
|J(x

)(x x

)|
= 0.
Mas [ |F(x)||J(x

)(xx

)| [ |F(x) J(x

)(xx

)|, portanto existe


> 0 tal que, sempre que 0 < |x x

| ,

1
2

|F(x)| |J(x

)(x x

)|
|J(x

)(x x

)|

1
2
,
ou seja,

1
2
|J(x

)(x x

)| |F(x)| |J(x

)(x x

)|
1
2
|J(x

)(x x

)|,
94 CHAPTER 5. SISTEMAS DE EQUAC

OES N

AO-LINEARES
ou ainda,
1
2
|J(x

)(x x

)| |F(x)|
3
2
|J(x

)(x x

)|. (5.4.20)
Mas, |J(x

)(x x

)| |J(x

)||x x

| e
|x x

| = |J(x

)
1
J(x

)(x x

)| |J(x

)
1
||J(x

)(x x

)|,
portanto a tese do Lema segue de (5.4.20), com c
1
= 1/(2|J(x

)|
1
) e
c
2
=
3
2
|J(x

)|. QED
Prova do Teorema Dennis-More: Por (5.4.19), temos:
[B
k
J(x

)](x
k+1
x
k
) = F(x
k
) J(x

)(x
k+1
x
k
)
= F(x
k+1
) F(x
k
) J(x

)(x
k+1
x
k
) F(x
k+1
).
Agora, pelo resultado do Exerccio 5.4,
|F(x
k+1
)F(x
k
)J(x

)(x
k+1
x
k
)| L|x
k+1
x
k
| max|x
k
x

|
p
, |x
k+1
x

|
p
.
Portanto, pela convergencia de x
k
e pela condi c ao (5.4.19),
lim
k
|F(x
k+1
)|
|x
k+1
x
k
|
= 0 . (5.4.21)
Agora, |x
k+1
x
k
| |x
k+1
x

| + |x
k
x

| e, pelo Lema 5.4.7, para k


sucientemente grande, temos |F(x
k+1
)| c
1
|x
k+1
x

|. Portanto, por
(5.4.21),
lim
k
|x
k+1
x

|
|x
k
x

| +|x
k+1
x

|
= 0, (5.4.22)
e a convergencia superlinear segue de (5.4.22) ap os breve manipula c ao algebrica.
QED
Quando, para um metodo secante, pode ser provada uma propriedade de de-
teriora c ao limitada e a forma de denir B
k
permite demonstrar tambem
que |B
k+1
B
k
| 0, a convergencia superlinear do metodo resulta do
Teorema Dennis-More. Formalizaremos isso no seguinte teorema.
Teorema 5.4.8
Suponhamos as hip oteses gerais desta se c ao e, tambem, a condi c ao (5.4.5).
Suponhamos que o metodo quase-Newton denido por x
k+1
= x
k
B
1
k
F(x
k
)
5.4. CONVERG

ENCIA LOCAL 95
tem as propriedades (5.4.11) e (5.4.15) e que a equa c ao secante () e satis-
feita para todo k. Ent ao, existem , > 0 tais que, se |x
0
x

| e
|B
0
J(x

)| , a seq uencia x
k
est a bem denida, e converge superlin-
earmente para x

.
Prova: A boa deni c ao e convergencia resultam do Teorema 5.4.3. Para
provar a superlinearidade vamos mostrar que a condi c ao Dennis-More e sat-
isfeita. Pelo resultado do Exerccio 5.4, temos que
|y
k
J(x

)s
k
| L|s
k
| max |x
k
x

|
p
, |x
k+1
x

|
p
. (5.4.23)
Mas, pela condi c ao secante, B
k+1
s
k
= y
k
. Logo, por (5.4.23) e a con-
vergencia de x
k
,
lim
k
|[B
k+1
J(x

)]s
k
|
|s
k
|
= 0. (5.4.24)
Claramente, a condi c ao Dennis-More (5.4.19) pode ser deduzida de (5.4.24)
e (5.4.15). Portanto, a convergencia e superlinear. QED
5.4.4 Convergencia dos Newton inexatos
Como dissemos na Se c ao 5.3, chamamos metodos de Newton inexatos ` aqueles
baseados na condi c ao (5.3.7). Newton truncados ser ao aqueles metodos nos
quais se utiliza um metodo iterativo linear para resolver, aproximadamente,
o sistema (5.3.2). Freq uentemente, as duas express oes s ao utilizadas como
sin onimos. Entretanto, pode ser que um metodo de Newton truncado uti-
lize um criterio de parada diferente de (5.3.7), e tambem e possvel que
o incremento s
k
que satisfaz (5.3.7) n ao seja originado de um processo it-
erativo linear. Por isso, e conveniente manter as duas denomina c oes com
signicados diferenciados.
No resultado principal desta subse c ao, provaremos que os metodos de New-
ton inexatos s ao localmente convergentes com taxa linear, em determinada
norma, se o valor
k
se mantem xo ao longo de todo o processo. Se
k
0,
veremos que a convergencia e superlinear.
Teorema 5.4.9 - Dembo - Eisenstat - Steihaug.
(a) Se
k

max
< r < 1, existe > 0 tal que se |x
0
x

| , ent ao
a seq uencia x
k
gerada por um metodo de Newton inexato converge a x

.
Alem disso a convergencia e linear com taxa r:
|x
k+1
x

r|x
k
x

, (5.4.25)
96 CHAPTER 5. SISTEMAS DE EQUAC

OES N

AO-LINEARES
onde a norma | |

est a denida por |y|

= |J(x

)y| .
(b) Se a seq uencia x
k
gerada por um metodo de Newton inexato converge
a x

e se
lim
k

k
= 0 , (5.4.26)
ent ao a convergencia e superlinear.
Prova: (a) Como J(x

) e n ao-singular, para todo y IR


n
vale:
1

|y| |y|

|y| (5.4.27)
onde = max|J(x

)|, |J(x

)
1
| .
Como
max
< r, existe > 0 sucientemente pequeno tal que
(1 +) [
max
(1 +) + 2] r .
Agora, escolhemos > 0 sucientemente pequeno tal que
|J(y) J(x

)| , (5.4.28)
|J(y)
1
J(x

)
1
| , (5.4.29)
|F(y) F(x

) J(x

)(y x

)| |y x

| (5.4.30)
se |y x

|
2
. A existencia de e garantida pela diferenciabilidade de
F.
Assumindo que |x
0
x

| , vamos provar (5.4.25) por indu c ao. Por


(5.4.27), pela hip otese de indu c ao e, novamente por (5.4.27), temos
|x
k
x

| |x
k
x

r
k
|x
0
x


2
|x
0
x

|
2
,
de tal forma que (5.4.28)(5.4.30) valem com y = x
k
. Alem disso, a k-esima
etapa de um metodo de Newton inexato e denida de tal forma que existe
s
k
satisfazendo
J(x
k
)s
k
= F(x
k
) +R
k
, onde
|R
k
|
|F(x
k
)|

k
. (5.4.31)
Ent ao,
J(x

)(x
k+1
x

) = J(x

)s
k
+J(x

)(x
k
x

)
= J(x

)J(x
k
)
1
[J(x
k
)s
k
+J(x
k
)(x
k
x

)]
= [I +J(x

)(J(x
k
)
1
J(x

)
1
)] [J(x
k
)s
k
+F(x
k
) +J(x
k
)(x
k
x

)
J(x

)(x
k
x

) F(x
k
) +F(x

) +J(x

)(x
k
x

)]
= [I +J(x

)(J(x
k
)
1
J(x

)
1
)] [R
k
+ [J(x
k
) J(x

)](x
k
x

)
[F(x
k
) F(x

) J(x

)(x
k
x

)]] .
5.4. CONVERG

ENCIA LOCAL 97
Usando a deni c ao de , (5.4.28), (5.4.29), (5.4.30) e (5.4.31), temos
|x
k+1
x

[1 +|J(x

)| |J(x
k
)
1
J(x

)
1
|] [|R
k
| +
+ |J(x
k
) J(x

)| |x
k
x

| +|F(x
k
) F(x

) J(x

)(x
k
x

)|]
(1 +)[
k
|F(x
k
)| +|x
k
x

| +|x
k
x

|] .
Como
F(x
k
) = [J(x

)(x
k
x

)] + [F(x
k
) F(x

) J(x

)(x
k
x

)] ,
de (5.4.30) segue que:
|F(x
k
)| |x
k
x

+|F(x
k
) F(x

) J(x

)(x
k
x

)|
|x
k
x

+|x
k
x

| .
Portanto, usando (5.4.27),
|x
k+1
x

(1 +)[
k
[|x
k
x

+|x
k
x

|] + 2|x
k
x

|]
(1 +)[
max
(1 +) + 2]|x
k
x

.
Logo, (5.4.25) segue pela escolha de .
Para provarmos o item (b), inicialmente, como na k-esima etapa de um
metodo de Newton inexato vale (5.4.31), (5.4.26) e equivalente a dizer que
|R
k
| = o(|F(x
k
)|). (5.4.32)
Assim, assumindo (5.4.22), analogamente ` a prova do item (a), segue que
|x
k+1
x

| [|J(x

)
1
| +|J(x
k
)
1
J(x

)
1
|] [|R
k
|
+ |J(x
k
) J(x

)| |x
k
x

| +|F(x
k
) F(x

) J(x

)(x
k
x

)|]
= [|J(x

)
1
| +o(1)] [o(|F(x
k
)|) +o(1)|x
k
x

| +o(|x
k
x

|)] .
Portanto,
|x
k+1
x

| = o(|F(x
k
)|) +o(1)|x
k
x

| +o(|x
k
x

|),
ou seja x
k
x

superlinearmente. QED
Outros criterios, alem de (5.3.7), tem sido propostos para a parada do
metodo iterativo linear nos algoritmos de Newton truncados. Ypma [205]
sugeriu o seguinte criterio baseado no erro verdadeiro do sistema linear, e
n ao no resduo:
98 CHAPTER 5. SISTEMAS DE EQUAC

OES N

AO-LINEARES
|s
k
+J(x
k
)
1
F(x
k
)|
k
|J(x
k
)
1
F(x
k
)|. (5.4.33)
O criterio (5.4.33) tem algumas vantagens te oricas sobre (5.3.7) (ver [141]).
No entanto, e mais difcil de implementar devido ` a necessidade de estimar
a solu c ao verdadeira do sistema linear.
Uma desvantagem conceitual dos criterios (5.3.7) e (5.4.33) e que, para obter
convergencia superlinear, a precis ao com que se deve resolver o sistema lin-
ear deve ser cada vez mais exigente (
k
0). Atraves do uso de precondi-
cionadores que satisfazem a equa c ao secante, esta diculdade e contornada
em [137] e [138].
98 CHAPTER 5. SISTEMAS DE EQUAC

OES N

AO-LINEARES
Chapter 6
Minimiza cao irrestrita e
busca linear
A minimiza c ao de uma fun c ao contnua de n vari aveis, sem vnculos, e
um dos problemas cl assicos da otimiza c ao n ao linear. Existem in umeras
situa c oes da realidade que s ao modeladas dessa maneira. Quando a fun c ao
e deriv avel, a condi c ao necess aria de primeira ordem para minimizadores
estabelece que o gradiente deve se anular. Em casos muito simples, como
os tratados nos textos de c alculo multivariado, e possvel calcular manual-
mente todos os pontos crticos o que, geralmente, leva a encontrar solu c oes
globais, quando estas existem. Mas, quando o n umero de vari aveis ou a com-
plexidade da fun c ao aumentam, as manipula c oes isoladas s ao insucientes
para achar sequer pontos estacion arios.

E necess ario, ent ao, apelar para
metodos numericos, quase sempre iterativos. Os algoritmos estudados neste
captulo funcionam da seguinte maneira: dado o iterando x
k
determina-se
uma dire c ao d
k
ao longo da qual, em princpio, e possvel fazer diminuir o
valor da fun c ao objetivo. A seguir, calcula-se um comprimento de passo que
permita uma diminui c ao razo avel. O metodo de Newton, os quase-Newton,
e os chamados metodos de Newton truncados podem ser adaptados para
funcionar com este esquema.
6.1 Algoritmos gerais
Vamos considerar o problema de minimiza c ao sem restri c oes
Minimizar f(x)
x IR
n
(6.1.1)
99
100 CHAPTER 6. MINIMIZAC

AO IRRESTRITA E BUSCA LINEAR
com a hip otese inicial de que f C
1
(IR
n
).
Neste captulo consideraremos sempre que | | e a norma euclidiana, emb-
ora muitos resultados sejam independentes dessa identica c ao. Os metodos
para resolver (6.1.1) s ao iterativos. A aproxima c ao x
k+1
est a bem denida
e satisfaz f(x
k+1
) < f(x
k
) se f(x
k
) ,= 0. Para a deni c ao desses algorit-
mos, usaremos dire c oes ao longo das quais, pelo menos dando passos muito
pequenos, e possvel fazer decrescer f(x). Assim, dado x IR
n
, d IR
n
e
chamada dire c ao de descida a partir de x se existe > 0 tal que, para todo
t (0, ],
f(x +td) < f(x) .
As dire c oes que formam um angulo maior que 90 graus com o gradiente s ao
dire c oes de descida, como vemos no seguinte lema.
Lema 6.1.1
Se f(x)
T
d < 0 ent ao d e dire c ao de descida.
Prova: Como f(x)
T
d = lim
t0
f(x +td) f(x)
t
e por hip otese f(x)
T
d <
0, ent ao para todo t > 0 sucientemente pequeno, temos f(x + td) < f(x).
QED
A dire c ao d = f(x) e chamada dire c ao de m axima descida a partir de x.
Se consideramos todas as dire c oes com norma euclidiana unit aria no espa co,
e f acil ver que a derivada direcional mais negativa se realiza nessa dire c ao.
A solu c ao do problema
Minimizar

f(x) sujeita a |x x| ,
onde

f e qualquer fun c ao tal que

f( x) = f( x), e um ponto x() tal que


[x() x]/|x() x| tende ` a dire c ao de m axima descida quando tende a
0.
O prot otipo de todos os metodos que veremos neste captulo e o seguinte
algoritmo.
Algoritmo 6.1.2 - Algoritmo b asico que usa dire c oes de descida.
Dado x
k
IR
n
tal que f(x
k
) ,= 0, escolher d
k
dire c ao de descida e t
k
> 0
tais que
f(x
k
+t
k
d
k
) < f(x
k
) .
6.1. ALGORITMOS GERAIS 101
Tomar x
k+1
= x
k
+t
k
d
k
.
Exerccio 6.1: Mostrar que o Algoritmo 6.1.2 est a bem denido, no sen-
tido de que, sempre que f(x
k
) ,= 0, e possvel encontrar t
k
satisfazendo a
condi c ao de descida.
Naturalmente, gostaramos que a aplica c ao do Algoritmo 6.1.2 nos levasse
sempre, depois de um n umero razo avel de itera c oes, a um minimizador global
de f. Isso n ao vai ser possvel. De fato, o algoritmo assim denido e im-
potente ate para nos conduzir a pontos estacion arios no limite. Existem
exemplos em uma vari avel que mostram que a seq uencia gerada por ele
pode convergir a um ponto n ao estacion ario.
Exerccio 6.2: Exibir um exemplo do tipo dos mencionados no par agrafo
acima.
Uma das raz oes pelas quais o Algoritmo 6.1.2 fracassa em encontrar mini-
mizadores ou, ate, pontos estacion arios, e que pedir apenas que f(x
k
+t
k
d
k
)
seja menor que f(x
k
) e um objetivo excessivamente modesto, pois, na real-
idade, um descenso mais energico pode ser conseguido ao longo de dire c oes
de descida. A chamada condi c ao de Armijo substitui o descenso simples e
serve para invalidar alguns dos contra-exemplos que podem ser construdos
para desqualicar a condi c ao de descenso simples. No seguinte teorema
mostramos que a obten c ao do descenso baseado na condi c ao de Armijo e
sempre possvel.
Teorema 6.1.3 - Condi c ao de Armijo.
Sejam x, d IR
n
tais que f(x) ,= 0, f(x)
T
d < 0 e (0, 1). Existe
= () > 0 tal que
f(x +td) f(x) +tf(x)
T
d (6.1.2)
para todo t (0, ].
Prova: Temos
0 ,= f(x)
T
d = lim
t0
f(x +td) f(x)
t
e portanto
lim
t0
f(x +td) f(x)
tf(x)
T
d
= 1.
102 CHAPTER 6. MINIMIZAC

AO IRRESTRITA E BUSCA LINEAR
Logo, existe > 0 tal que para todo t (0, ],
f(x +td) f(x)
tf(x)
T
d
.
Ou seja, para todo t (0, ], f(x +td) f(x) +tf(x)
T
d. QED
Exerccio 6.3: Encontrar um exemplo em uma vari avel onde a seq uencia
gerada pelo Algoritmo 6.1.2 tenha pontos de acumula c ao n ao-estacion arios
e onde a condi c ao de Armijo n ao esteja sendo satisfeita em innitas itera c oes.
Incorporando a condi c ao de Armijo, o Algoritmo 6.1.2 pode ser reescrito da
seguinte maneira.
Algoritmo 6.1.4 - Algoritmo b asico de descida com Armijo.
Dado (0, 1) e dados x
k
e d
k
tais que f(x
k
)
T
d
k
< 0,
escolher t
k
> 0 como o maior dos n umeros 1, 1/2, 1/4, 1/8, . . . tal que
f(x
k
+t
k
d
k
) f(x
k
) +t
k
f(x
k
)
T
d
k
. (6.1.3)
Tomar x
k+1
= x
k
+t
k
d
k
.
Novamente, devemos lamentar que a condi c ao (6.1.3), embora mais exigente
que a primeira, n ao garanta as propriedades desej aveis de um metodo de
minimiza c ao. Com efeito, ate em uma vari avel e possvel encontrar exemp-
los para os quais o Algoritmo 6.1.4 converge a um ponto n ao estacion ario.
A raz ao e que, na condi c ao de Armijo, nada impede a tomada de passos
excessivamente pequenos, produzindo um fen omeno do tipo Aquiles e a
tartaruga.
Exerccio 6.4: Encontrar contra-exemplo em IR onde o Algoritmo 6.1.4
convirja a um ponto n ao-estacion ario.
Pode ser que passos muito pequenos sejam inevit aveis, simplesmente porque
passos grandes n ao permitem um decrescimo adequado, mas e imperdo avel,
do ponto de vista do desenho algortmico, que passos grandes n ao sejam,
pelo menos, tentados. Por isso, decidimos tentar sempre, primeiro o passo
t
k
= 1 e diminuir o passo sem exageros apenas quando a condi c ao de Armijo
n ao e satisfeita. Entretanto, esse mecanismo n ao inibe, por si s o, os passos
muito curtos, porque poderia ser que o pr oprio tamanho de d
k
fosse muito
6.1. ALGORITMOS GERAIS 103
pequeno. Isso motiva, tambem, a introdu c ao de uma condi c ao adicional
para d
k
, que chamaremos condi c ao :
|d
k
| |f(x
k
)| (6.1.4)
com > 0.
A condi c ao de Armijo (6.1.2) e a condi c ao (6.1.4) s ao sucientes para elimi-
nar os inquietantes contra-exemplos unidimensionais, mas ainda n ao bastam
para garantir que todo ponto de acumula c ao seja estacion ario. De fato, se
n 2, as dire c oes de descida d
k
poderiam ser maldosamente escolhidas de
maneira que o angulo entre d
k
e f(x
k
) tendesse a 90 graus. Ou seja, o
cosseno entre d
k
e f(x
k
), embora negativo, tenderia a zero. Essa situa c ao
poderia provocar convergencia a um ponto n ao estacion ario. Para inibir essa
eventualidade, vamos impor que os citados cossenos estejam uniformemente
separados de 0. Logo, as dire c oes toler aveis formar ao uma especie de cone
agudo com eixo na semi-reta gerada por f(x
k
). Por raz oes obvias, esta
ser a chamada condi c ao do angulo:
f(x
k
)
T
d
k
|f(x
k
)| |d
k
|, (6.1.5)
com (0, 1) e | | = | |
2
.
Exerccio 6.5: Encontrar um contra-exemplo bi-dimensional mostrando
que sob (6.1.2) e (6.1.4) ainda podemos ter convergencia a um ponto n ao-
estacion ario.
Vamos ent ao reformular o Algoritmo 6.1.4, incorporando as condi c oes (6.1.4)
e (6.1.5), desculpando-nos por usar o termo backtracking sem traduzir.
Algoritmo 6.1.5 - Algoritmo de descida com backtracking.
Sejam x
0
IR
n
, (0, 1), > 0, (0, 1).
Dado x
k
, a nova aproxima c ao x
k+1
e obtida da seguinte maneira:
(1) Se f(x
k
) = 0, parar.
(2) Escolher d
k
IR
n
tal que
|d
k
| |f(x
k
)|
f(x
k
)
T
d
k
|f(x
k
)| |d
k
| .
(3) t = 1.
(4) Enquanto f(x
k
+td
k
) > f(x
k
) +tf(x
k
)
T
d
k
,
escolher novo t [0.1t, 0.9t].
104 CHAPTER 6. MINIMIZAC

AO IRRESTRITA E BUSCA LINEAR
(5) x
k+1
= x
k
+td
k
.
Exerccio 6.6: Mostrar que o Algoritmo 6.1.5 est a bem denido.
Computacionalmente, quando a condi c ao de Armijo falha no passo (4) do
Algoritmo 6.1.5 para t, a escolha de um novo t [0.1t, 0.9t] pode ser feita
minimizando-se a par abola c ubica que interpola (0), (t),

(0),

(t),
onde (t) = f(x
k
+td
k
) e

(t) = f(x
k
+td
k
)
T
d
k
. Se o minimizador desta
c ubica estiver no intervalo de salvaguarda [0.1t, 0.9t], adotamos t
novo
como
sendo este minimizador. Caso contr ario, t
novo
= 0.5t.
Exerccio 6.7: A estrategia descrita acima para obter um novo t ap os um
fracasso em Armijo demanda a avalia c ao extra de f(x
k
+ td
k
). Propor
uma outra estrategia, usando inicialmente uma par abola interpolante em
(0), (t) e

(0) e ent ao, caso ocorra(m) novo(s) fracasso(s) em Armijo,


prosseguir com c ubica(s) interpolante(s) em (0),

(0), (t) e (t), onde


t e o ultimo passo fracassado e t o passo fracassado anterior.
Antes de passar a resultados te oricos, discutiremos a naturalidade das
condi c oes (6.1.4) e (6.1.5). Vemos que tanto o par ametro da condi c ao de
Armijo quanto o par ametro em (6.1.5) s ao adimensionais. Portanto, faz
sentido recomendar valores adequados para esses par ametros. Usualmente
= 10
4
ou 0.1 e = 10
6
. J a o par ametro em (6.1.4) tem dimens ao
fsica que depende das unidades das vari aveis e da fun c ao objetivo, o que
torna sua escolha dependente do escalamento do problema. Devemos notar,
no entanto, que se B
k
d
k
= f(x
k
), ent ao |B
k
| |d
k
| |f(x
k
)| ou seja
|d
k
|
1
|B
k
|
|f(x
k
)|. Isto sugere um valor natural para que e o inverso
de uma cota superior para a norma da matriz Hessiana, pois assim o algo-
ritmo n ao inibe a aceita c ao da dire c ao de Newton.
Exerccio 6.8: Supondo f C
2
(IR
n
), mostrar que, se o n umero de condi c ao
da matriz
2
f(x
k
) e uniformemente limitado por c, ent ao 1/c e um valor
natural para quando d
k
=
2
f(x
k
)
1
f(x
k
).
Para o Algoritmo 6.1.5 podemos provar um teorema de convergencia global.
O sentido da palavra global aqui se refere a que a convergencia ocorre
independentemente do ponto inicial, e, de maneira nenhuma implica con-
vergencia a minimizadores globais.
6.1. ALGORITMOS GERAIS 105
Teorema 6.1.6 - Convergencia Global.
Se x

e ponto limite de uma seq uencia gerada pelo Algoritmo 6.1.5, ent ao
f(x

) = 0.
Prova: Denotamos s
k
= x
k+1
x
k
= td
k
para todo k ^. Seja K
1

^
tal que lim
kK
1
x
k
= x

, onde

denota subconjunto innito.


Consideramos dois casos:
(a) lim
kK
1
|s
k
| = 0.
(b) Existem K
2

K
1
e > 0 tais que |s
k
| para todo k K
2
.
Suponhamos inicialmente que valha (a).
(a1) Se existe K
3

K
1
, tal que s
k
= d
k
, ent ao
|f(x

)| = lim
kK
3
|f(x
k
)| lim
kK
3
|d
k
|

= lim
kK
3
|s
k
|

= 0 .
(a2) Se para todo k K
1
, k k
0
temos t < 1, ent ao, para todo k K
1
, k k
0
existe s
k
um m ultiplo de s
k
tal que | s
k
| 10|s
k
| e
f(x
k
+ s
k
) > f(x
k
) +f(x
k
)
T
s
k
.
Claramente,
lim
kK
1
| s
k
| = 0
e
f(x
k
)
T
s
k
|f(x
k
)| | s
k
| (6.1.6)
para todo k K
1
, k k
0
.
Seja v um ponto de acumula c ao de
s
k
| s
k
|
. Ent ao |v| = 1 e existe K
4

K
1
tal que lim
kK
4
s
k
| s
k
|
= v.
Portanto,
f(x

)
T
v = lim
kK
4
f(x
k
)
T
v = lim
kK
4
f(x
k
)
T
s
k
| s
k
|
e por (6.1.6) segue que
f(x

)
T
v lim
kK
4
|f(x
k
)| . (6.1.7)
106 CHAPTER 6. MINIMIZAC

AO IRRESTRITA E BUSCA LINEAR
Agora, para todo k K
4
,
f(x
k
+ s
k
) f(x
k
) = f(x
k
+
k
s
k
)
T
s
k
,
k
(0, 1).
Portanto, pelo fracasso da condi c ao de Armijo para s
k
,
f(x
k
+ s
k
)
T
s
k
> f(x
k
)
T
s
k
, para todo k K
4
.
Ou seja, para todo k K
4
,
f(x
k
+ s
k
)
T
s
k
| s
k
|
> f(x
k
)
T
s
k
| s
k
|
.
Passando ao limite para k K
4
temos:
f(x

)
T
v f(x

)
T
v
ou
(1 )f(x

)
T
v 0 .
Logo
f(x

)
T
v 0
e por (6.1.7) segue que f(x

)
T
v = 0. Se f(x

) ,= 0, novamente por
(6.1.7), para k K
4
, k sucientemente grande,
0 = f(x

)
T
v |f(x
k
)| < 0 .
Portanto, f(x

) = 0.
Suponhamos agora a validade de (b): |s
k
| para todo k K
2
. Por
Armijo,
f(x
k
+s
k
) f(x
k
) +f(x
k
)
T
s
k
f(x
k
) |f(x
k
)| |s
k
|
f(x
k
) |f(x
k
)| ,
para todo k K
2
.
Portanto,
f(x
k+1
) f(x
k
) |f(x
k
)|
ou seja,
f(x
k
) f(x
k+1
)

|f(x
k
)| .
6.2. O M

ETODO DE NEWTON 107


Passando ao limite para k K
2
, pela continuidade de f temos: lim
kK
2
|f(x
k
)| =
0 e portanto f(x

) = 0. QED
Exerccio 6.8 Suponha que, no Algoritmo 6.1.5, temos que existe uma
constante c > 0 tal que
|d
k
| c|f(x
k
)|
para todo k.
(a) Provar que se x

e um ponto limite da seq uencia e, alem disso, numa


vizinhan ca de x

n ao existe nenhum outro ponto onde se anule o gradiente,


ent ao a seq uencia converge a x

. Sugerencia: construa uma coroa circular


ao redor de x

onde somente pode existir um n umero nito de iterandos.


(b) Provar que se, alem do suposto em (a), x

e um minimizador local, ent ao


existe > 0 tal que a seq uencia converge a x

sempre que |x
0
x

| .
(Convergencia local.) Sugerencia: construa, alem da coroa, um conjunto de
nvel contido dentro da bola menor.
(c) Mostrar que (b) n ao se cumpre se, em vez de minimizador local, x

e meramente um ponto sela. (Exemplo unidimensional.) Apesar disso se


cumpre (a)! Discutir estes fatos.
6.2 O metodo de Newton
No Captulo 5 apresentamos o metodo de Newton como um metodo r apido
para resolver sistemas n ao lineares, com convergencia local. Como f(x) =
0 e um sistema n ao linear, esse metodo pode ser aplicado e, muitas vezes,
dar a bons resultados. No entanto, o metodo de Newton para sistemas n ao d a
preferencia a minimizadores sobre maximizadores, j a que a condi c ao de oti-
malidade para ambos tipos de extremos e a mesma. Por outro lado, sabemos,
pelo Teorema 6.1.6, quais s ao os elementos que deve possuir um algoritmo
globalmente convergente.

E natural, em conseq uencia, tentar modicar o
metodo local de maneira que manifeste predile c ao pelos minimizadores e
convirja independentemente do ponto inicial.
Observemos primeiro que, quando as dire c oes d
k
s ao geradas como solu c oes
de um sistema linear B
k
d
k
= f(x
k
), temos que d
T
k
B
k
d
k
= d
T
k
f(x
k
),
portanto, dire c oes de descida s ao geradas se B
k
> 0. Logo, e bastante
sensato impor que as matrizes que geram dire c oes de busca em metodos de
minimiza c ao sejam denidas positivas.
Em continua c ao descrevemos uma modica c ao do metodo de Newton local
que o converte em caso particular do Algoritmo 6.1.5. Usaremos a nota c ao
108 CHAPTER 6. MINIMIZAC

AO IRRESTRITA E BUSCA LINEAR
g(x) = f(x).
Algoritmo 6.2.1 - Newton com busca linear.
Dados (0, 1), > 0, (0, 1) e x
k
IR
n
,
(1) Se g(x
k
) = 0, parar.
(2) Tentar a fatora c ao de Cholesky:
2
f(x
k
) = LDL
T
.
(3) Se houve sucesso em (2), obter d
k
resolvendo
Lz = g(x
k
) e DL
T
d
k
= z .
(4) Se (2) fracassou, denir B
k
=
2
f(x
k
) +I, > 0, de maneira que
B
k
> 0. Obter a fatora c ao de Cholesky: B
k
=

L

D

L
T
e calcular d
k
resolvendo

Lz = g(x
k
) e

D

L
T
d
k
= z .
(5) Se g(x
k
)
T
d
k
> |g(x
k
)| |d
k
|, fazer max 2, 10 e repetir
o Passo 4, como se tivesse havido fracasso na fatora c ao de Cholesky.
(6) Se |d
k
| < |g(x
k
)|, corrigir:
d
k

|g(x
k
)|
|d
k
|
d
k
.
(7) Obter t por backtracking de modo a satisfazer
f(x
k
+td
k
) f(x
k
) +tg(x
k
)
T
d
k
,
denir
x
k+1
= x
k
+td
k
e voltar para (1).
Quando a Hessiana
2
f(x
k
) e denida positiva, automaticamente teremos
que uma condi c ao de tipo (6.1.5) se verica com igual ao recproco do
n umero de condi c ao de
2
f(x
k
). Ao mesmo tempo, uma condi c ao de tipo
(6.1.4) vale com = 1/|
2
f(x
k
)|. Logo, se e s ao escolhidos suciente-
mente pequenos, as condi c oes (6.1.5) e (6.1.4) ser ao satisfeitas e passaremos
diretamente ao Passo 7 com d
k
= [
2
f(x
k
)]
1
g(x
k
). Portanto, quase sem-
pre, essa ser a a dire c ao de busca no caso denido positivo. Se a Hessiana
6.2. O M

ETODO DE NEWTON 109


n ao e denida positiva, no Passo 4 a diagonal e aumentada ate conseguir
que todos os autovalores sejam maiores que 0. Neste caso, e improv avel que
a condi c ao (6.1.5) n ao seja satisfeita, mesmo assim, testamos essa desigual-
dade e continuamos aumentando a diagonal se ela n ao vale. Para
a dire c ao B
1
k
g(x
k
) tende a ser a dire c ao de g(x
k
), portanto, mais tarde
ou mais cedo, conseguiremos um para o qual (6.1.5) se satisfaz. Agora,
no processo de aumentar , o comprimento de d
k
diminui, logo, e necess ario
testar se (6.1.4) continua valendo. Se assim n ao for, no Passo 6, aumentamos
o tamanho de d
k
ate atingir uma longitude que garanta (6.1.4).

E interessante observar que, devido aos resultados sobre minimiza c ao em


bolas do Captulo 4, a dire c ao d
k
= [
2
f(x
k
) + I]
1
g(x
k
) e solu c ao do
problema quadr atico
Minimizar
1
2
d
T

2
f(x
k
)d +g(x
k
)
T
d
sujeita a |d| ,
onde = | [
2
f(x
k
) + I]
1
g(x
k
)|. Ou seja, entre todas as dire c oes
possveis cujo comprimento e menor ou igual a |d
k
|, em d
k
, a aproxima c ao
quadr atica de segunda ordem de f toma o valor mnimo .
Exerccio 6.9: Viabilizar o Passo 4 do Algoritmo 6.2.1, propondo escolhas
para que explorem o conhecimento de
2
f(x
k
) (por exemplo, usando os
discos de Gerschgorin).
Exerccio 6.10: Mostrar que as corre c oes propostas nos passos (5) e (6)
do Algoritmo 6.2.1 s ao satisfat orias. Interpret a-las geometricamente. Expor
exemplos numericos.
Exerccio 6.11: Inventar o metodo do gradiente, onde d
k
g(x
k
), e
outros metodos globais. Discutir possveis propriedades.
Vimos acima que, quase sempre, se a Hessiana e denida positiva, a dire c ao
produzida pelo Algoritmo 6.2.1 coincidir a com o passo que seria calculado
pelo metodo de Newton local aplicado a g(x) = 0. No entanto, isso n ao
signica que esse passo ser a aceito, j a que a condi c ao de Armijo poderia n ao
se cumprir, obrigando a uma ou mais redu c oes de t. Agora, como o metodo
de Newton local, ou puro, tem convergencia muito r apida na proximidade de
solu c oes boas, e desej avel que, quando x
k
est a perto de uma dessas solu c oes,
a condi c ao de Armijo se satisfa ca, caso contr ario estaramos rejeitando in-
crementos essencialmente bons. Felizmente, o metodo de Newton satisfaz
110 CHAPTER 6. MINIMIZAC

AO IRRESTRITA E BUSCA LINEAR
esse requisito, como veremos no seguinte teorema. Usaremos, como hip otese,
que f C
3
(IR
n
) (na realidade, hip oteses mais fracas s ao sucientes) para
podermos utilizar, de maneira bastante forte, uma f ormula de Taylor com
resduo de segunda ordem.
Teorema 6.2.2
Seja x
k
gerada pelo Algoritmo 6.2.1 com (0, 1), x

um ponto limite
de x
k
tal que f(x

) = 0 e
2
f(x

) > 0. Ent ao a seq uencia converge


para x

. Alem disso, existe > 0 tal que, se |x


k
x

| , ent ao
f(x
k
+d
k
) f(x
k
) +g(x
k
)
T
d
k
, (6.2.1)
com d
k
=
2
f(x
k
)
1
g(x
k
) e (0,
1
2
).
Prova: Sabemos que x

e minimizador local estrito de f e, pelo Teorema


da Fun c ao Inversa, existe uma vizinhan ca de x

que n ao contem solu c oes de


g(x) = 0 alem de x

. Seja, ent ao,


0
> 0 tal que f(x) > f(x

) e g(x) ,= 0
sempre que 0 < |x x

|
0
. Vejamos primeiro que
lim
k
x
k
= x

, (6.2.2)
ou seja, x

e o unico ponto limite da seq uencia neste caso. Escrevemos,


para simplicar, B
k
=
2
f(x
k
). Sejam
1
(0,
0
), M > 0 tais que
|
2
f(x)
1
| M sempre que |xx

|
1
. Portanto, quando |x
k
x

1
, temos |B
1
k
| M e
|x
k+1
x
k
| |d
k
| |B
1
k
||g(x
k
)| M|g(x
k
)|. (6.2.3)
Portanto, pela continuidade de g(x), existe
2


1
2
tal que
|x
k+1
x
k
|

1
2
sempre que |x
k
x

|
2
. (6.2.4)
Agora, f e contnua na coroa
2
|x x

|
1
. Portanto, atinge um
valor mnimo m em algum ponto dessa regi ao. Pela suposi c ao feita sobre

0
, temos que m > f(x

). Denimos
V = x IR
n
[ |x x

| <
2
e f(x) < m. (6.2.5)
O conjunto V e uma vizinhan ca aberta de x

, portanto, como x

e um ponto
limite de x
k
, existem innitos ndices k para os quais x
k
V . Se k
0
e um
desses ndices, ent ao, por (6.2.4),
|x
k
0
+1
x

| |x
k
0
x

| +|x
k
0
+1
x
k
0
|
2
+

1
2

1
. (6.2.6)
6.2. O M

ETODO DE NEWTON 111


Ao mesmo tempo, exceto no caso trivial em que x
k
0
= x

, que podemos
analisar por separado,
f(x
k
0
+1
) < f(x
k
0
) < m. (6.2.7)
Logo, pela deni c ao de m e pelas desigualdades (6.2.6) e (6.2.7), x
k
0
+1
est a na bola de raio
1
mas n ao na coroa denida por
1
e
2
. Ou seja,
|x
k
0
+1
x

| <
2
. Portanto, por (6.2.7) e (6.2.5), x
k
0
+1
V . Dessa
maneira, o raciocnio indutivo usual nos conduz ` a conclus ao de que x
k
V
para todo k k
0
. Mas, pela suposi c ao inicial feita sobre
0
, o unico possvel
ponto limite da seq uencia na bola |x x

|
2
e o pr oprio x

. Portanto,
x
k
converge para x

, como queramos provar.


Vamos demonstrar a segunda parte do teorema. Tomando o desenvolvi-
mento de Taylor em torno de x
k
,
f(x
k
+d
k
) = f(x
k
) +g(x
k
)
T
d
k
+
1
2
(d
k
)
T

2
f(x
k
)d
k
+r
2
(d
k
) (6.2.8)
onde lim
d
k
0
r
2
(d
k
)
|d
k
|
2
= 0.
Como
2
f(x
k
)d
k
= g(x
k
), substituindo em (6.2.8) temos:
f(x
k
+d
k
) = f(x
k
)
1
2
(d
k
)
T

2
f(x
k
)d
k
+r
2
(d
k
).
Suponhamos, por absurdo, que existe um conjunto innito de ndices K
1
tal
que, para todo k K
1
,
f(x
k
+d
k
) > f(x
k
) +g(x
k
)
T
d
k
= f(x
k
) (d
k
)
T

2
f(x
k
)d
k
.
Ent ao
f(x
k
)
1
2
(d
k
)
T

2
f(x
k
)d
k
+r
2
(d
k
) > f(x
k
) (d
k
)
T

2
f(x
k
)d
k
.
Ou seja,
r
2
(d
k
) >
_
1
2

_
(d
k
)
T

2
f(x
k
)d
k
.
Logo,
r
2
(d
k
)
|d
k
|
2
>
_
1
2

_
(d
k
)
T

2
f(x
k
)d
k
(d
k
)
T
d
k

_
1
2

_

1
(k) (6.2.9)
onde
1
(k) e o menor autovalor de
2
f(x
k
).
112 CHAPTER 6. MINIMIZAC

AO IRRESTRITA E BUSCA LINEAR
Quando x
k
x

, d
k
0 e como os autovalores de uma matriz s ao fun c oes
contnuas das componentes desta matriz, temos que
1
(k) converge a
1
, o
menor autovalor de
2
f(x

), que, pela hip otese, e maior que 0.


Logo, passando (6.2.9) ao limite para k K
1
, como como (0,
1
2
), cheg-
amos a uma contradi c ao. Ela veio de supor que podiam existir innitos
ndices n ao satisfazendo a condi c ao (6.2.1). Portanto, alem da convergencia
para x

, temos que (6.2.1) se cumpre para todo k sucientemente grande.


QED
Exerccio 6.12: Se f(x) =
1
2
x
T
Gx + b
T
x + c, com G simetrica e denida
positiva, mostre que a partir de qualquer x
k
IR
n
a dire c ao de Newton
satisfaz Armijo para
1
2
.
No Teorema 6.2.2 mostramos que, em determinadas condi c oes, o metodo de
Newton globalizado denido nesta se c ao, acaba coincidindo com o metodo
de Newton local para o sistema g(x) = 0, desfrutando, portanto das mes-
mas propriedades relativas a velocidade de convergencia. Vamos resumir
tudo isso no seguinte teorema, cuja demonstra c ao limita-se a organizar os
resultados anteriores.
Teorema 6.2.3 - Newton Globalizado.
Seja x
k
a seq uencia gerada pelo Algoritmo 6.2.1. Ent ao,
(a) Todo ponto de acumula c ao e estacion ario.
(b) Se f C
3
(IR
n
), x

e um ponto limite tal que


2
f(x

) > 0, <
1/|
2
f(x

)| e e menor que o inverso do n umero de condi c ao de

2
f(x

), ent ao x
k
converge para x

e existe k
0
^ tal que para
todo k k
0
, t = 1.
(c) No caso (b), a convergencia e quadr atica.
Exerccio 6.13: Demonstrar o Teorema 6.2.3.
6.3 Metodos quase-Newton
Vimos que a implementa c ao do metodo de Newton para minimizar fun c oes
exige a resolu c ao, em geral via fatora c ao de Cholesky, do sistema linear

2
f(x
k
)d
k
= g(x
k
) (6.3.1)
6.3. M

ETODOS QUASE-NEWTON 113


em cada itera c ao.
`
As vezes, mais de uma fatora c ao e necess aria para cor-
rigir falta de positividade da matriz Hessiana. Quando n ao e possvel tirar
vantagem da estrutura esparsa da matriz, essa fatora c ao envolve O(n
3
/6)
opera c oes. Quando n e grande, esse trabalho pode ser intoler avel, o que
motiva o desenvolvimento de metodos cujo custo por itera c ao seja O(n
2
).
Por outro lado, se as derivadas segundas v ao ser calculadas manualmente, a
probabilidade de erros humanos e consider avel, de maneira que o desenvolvi-
mento de algoritmos sem derivadas segundas tambem se justica. Mesmo
que o c alculo de derivadas segundas n ao seja um grande problema, por serem
f aceis ou pela disponibilidade de programas de diferencia c ao autom atica (ver
[105]), e possvel que o custo de calcular a matriz Hessiana seja muito el-
evado. Por exemplo, suponhamos que f(x) seja uma soma de (muitos)
quadrados:
f(x) =
1
2
|F(x)|
2
=
1
2
m

i=1
f
i
(x)
2
, (6.3.2)
com F : IR
n
IR
m
, J(x) = F

(x) IR
mn
. Nesse caso,
f(x) = J(x)
T
F(x), e
2
f(x) = J(x)
T
J(x) +
m

i=1
f
i
(x)
2
f
i
(x).
Sem considerar possvel esparsidade, o c alculo do gradiente envolve pelo
menos O(mn) opera c oes. Mas o c alculo da Hessiana precisa O(mn
2
) produ-
tos apenas para calcular J(x)
T
J(x), ou seja, sem contar a somat oria onde
aparecem as Hessianas das f
i
que, freq uentemente, e mais complicada. Logo,
se m e grande, a diferen ca de custo entre uma itera c ao O(n
2
) e a itera c ao
newtoniana pode ser signicativa.
No metodo de Newton globalizado com buscas lineares, introduzido na Se c ao
2, a maioria das itera c oes tem a forma x
k+1
= x
k
t
k

2
f(x
k
)
1
g(x
k
). Como
esse metodo tem boas propriedades de convergencia local, e natural que os
metodos quase-Newton que pretendemos denir tentem se parecer com ele
tanto quanto possvel, porem, barateando o custo. Assim, a maioria das
itera c oes quase-Newton ser a da forma
x
k+1
= x
k
t
k
B
1
k
g(x
k
). (6.3.3)
A ideia e tentar que as matrizes B
k
sejam aproxima c oes razo aveis das Hes-
sianas. Os metodos secantes conseguem, geralmente, aproxima c oes satis-
fat orias exigindo que as B
k
s satisfa cam a equa c ao secante, cujo signi-
cado geometrico vimos no Captulo 5 e que, no caso de minimiza c ao sem
114 CHAPTER 6. MINIMIZAC

AO IRRESTRITA E BUSCA LINEAR
restri c oes, toma a forma
B
k+1
s
k
= y
k
onde s
k
= x
k+1
x
k
e y
k
= g(x
k+1
) g(x
k
). (6.3.4)
Uma condi c ao para que um metodo secante tenha baixo custo e que seja
possvel obter B
1
k+1
(ou uma fatora c ao de B
k
) facilmente a partir de B
k
,
s
k
e y
k
. Facilmente signica, via de regra, com O(n
2
) opera c oes. Quase
sempre e mais c omodo formular os metodos quase-Newton na forma
x
k+1
= x
k
t
k
H
k
g(x
k
), (6.3.5)
com a matriz H
k
de (6.3.5) correspondendo a B
1
k
de (6.3.3). Dessa maneira,
as H
k
podem ser interpretadas como aproxima c oes das inversas das Hes-
sianas e a equa c ao secante toma a forma
H
k+1
y
k
= s
k
. (6.3.6)
Como no caso do metodo de Newton, a globaliza c ao dos metodos quase-
Newton ser a um caso particular do Algoritmo 6.1.6 com as dire c oes d
k
cal-
culadas como H
k
g(x
k
) (ou B
1
k
g(x
k
)).
Algoritmo 6.3.1 - Secante globalizado.
Sejam (0, 1), > 0, (0, 1).
Dados x
k
, B
k
( ou H
k
) e g
k
= f(x
k
) ,= 0,
(1) Resolver
B
k
d
k
= g
k
(ou d
k
= H
k
g
k
) .
(2) Testar as condi c oes
|d
k
| |g
k
| e g
T
k
d
k
|g
k
| |d
k
|,
corrigindo d
k
se necess ario.
(3) Fazer backtracking ate que
f(x
k
+td
k
) f(x
k
) +tg
T
k
d
k
.
(4) Denir x
k+1
= x
k
+td
k
, s
k
= x
k+1
x
k
, y
k
= g
k+1
g
k
e escolher
B
k+1
tal que B
k+1
s
k
= y
k
(ou H
k+1
tal que H
k+1
y
k
= s
k
).
6.3. M

ETODOS QUASE-NEWTON 115


A corre c ao para d
k
mencionada no Passo 2 e inteiramente arbitr aria. Por
exemplo, qualquer vetor d
k
da forma g(x
k
), com satisfar a, obvia-
mente, as condi c oes (6.1.4) e (6.1.5). Mas, em casos particulares, corre c oes
mais inteligentes podem ser tentadas.
Exerccio 6.14: Inventar outras corre c oes para d
k
no Passo 2 do Algoritmo
6.3.1, de maneira de aproveitar melhor a informa c ao contida na aproxima c ao
B
k
(ou H
k
).
Vamos introduzir f ormulas que satisfazem () ou () e, portanto, geram metodos
secantes. Em IR, existe uma unica possibilidade: B
k+1
= y
k
/s
k
ou H
k+1
=
s
k
/y
k
. Em geral, qualquer matriz B
k+1
cumprindo () pertence ` a variedade
am Bs
k
= y
k
em IR
nn
. Pelo mesmo argumento usado em sistemas n ao
lineares, esta variedade e n ao vazia e, portanto, tem innitos elementos se
n 2.
Por raz oes que veremos mais adiante, e muito freq uente obter B
k+1
a partir
de B
k
mediante uma atualiza c ao de posto dois. Nesse caso,
B
k+1
= B
k
+ B

k
+ B

k
e como B
k+1
s
k
= y
k
, segue que
(B
k
+ B

k
+ B

k
)s
k
= y
k
ou seja,
B

k
s
k
+ B

k
s
k
= y
k
B
k
s
k
(6.3.7)
Existem muitas maneiras da equa c ao (6.3.7) ser satisfeita. Por exemplo,
se B

k
s
k
= y
k
e B

k
s
k
= B
k
s
k
, e impomos que B
k
, B

k
e B

k
sejam
simetricas, temos a seguinte atualiza c ao:
B

k
=
y
k
y
T
k
y
T
k
s
k
e B

k
=
B
k
s
k
s
T
k
B
k
s
T
k
B
k
s
k
.
Dessa maneira, obtemos a seguinte f ormula secante:
B
k+1
= B
k
+
y
k
y
T
k
y
T
k
s
k

B
k
s
k
s
T
k
B
k
s
T
k
B
k
s
k
. (6.3.8)
A escolha (6.3.8) e conhecida como f ormula BFGS, descoberta independen-
temente por Broyden, Fletcher, Goldfarb e Shanno em 1970.

E a atualiza c ao
secante mais popular para minimiza c ao sem restri c oes.
116 CHAPTER 6. MINIMIZAC

AO IRRESTRITA E BUSCA LINEAR
Exerccio 6.15: Provar que, na f ormula BFGS,
B
1
k+1
= B
1
k
+
(s
k
B
1
k
y
k
)s
T
k
+s
k
(s
k
B
1
k
y
k
)
T
s
T
k
y
k

(s
k
B
1
k
y
k
)
T
y
k
s
k
s
T
k
(s
T
k
y
k
)
2
.
Tendo em vista o Exerccio 6.15, a formula c ao dual da f ormula BFGS efeti-
vamente usada e:
H
k+1
= H
k
+
(s
k
H
k
y
k
)s
T
k
+s
k
(s
k
H
k
y
k
)
T
s
T
k
y
k

(s
k
H
k
y
k
)
T
y
k
s
k
s
T
k
(s
T
k
y
k
)
2
.
(6.3.9)
Em (6.3.9) observamos que a obten c ao de H
k+1
a partir de H
k
(ou B
1
k+1
a
partir de B
1
k
) demanda apenas O(n
2
) opera c oes, como desej avamos.
Exerccio 6.16: Utilizando a mesma heurstica usada na obten c ao da
f ormula BFGS, mas trabalhando inicialmente na formula c ao dual (matrizes
H), inventar a f ormula DFP (introduzida por Davidon em 1959 e estu-
dada por Fletcher e Powell em 1963).
A f ormula BFGS e a DFP tem a propriedade de produzir, geralmente, ma-
trizes denidas positivas e, portanto, dire c oes de descida, que, freq uentemente,
n ao precisar ao corre c ao. A condi c ao suciente para t ao interessante pro-
priedade e dada no seguinte teorema.
Teorema 6.3.2
Na f ormula BFGS (6.3.8), se B
k
e simetrica denida positiva e s
T
k
y
k
> 0,
ent ao B
k+1
tambem e simetrica e denida positiva.
Prova: Seja z ,= 0, z IR
n
. Ent ao
z
T
B
k+1
z = z
T
B
k
z +
(z
T
y
k
)
2
y
T
k
s
k

(z
T
B
k
s
k
)
2
s
T
k
B
k
s
k
,
onde z
T
B
k
z > 0 e
(z
T
y
k
)
2
y
T
k
s
k
0. Agora, chamando
a = z
T
B
k
z
(z
T
B
k
s
k
)
2
s
T
k
B
k
s
k
=
s
T
k
B
k
s
k
z
T
B
k
z (z
T
B
k
s
k
)
2
s
T
k
B
k
s
k
,
temos que, pela desigualdade de Cauchy-Schwarz, que a 0.
6.3. M

ETODOS QUASE-NEWTON 117


Na verdade, a = 0 apenas quando z e m ultiplo de s
k
, mas neste caso,
z
T
y
k
,= 0 e portanto
(z
T
y
k
)
2
s
T
k
y
k
> 0. Logo z
T
B
k+1
z > 0. QED
Exerccio 6.17: Enunciar e provar o resultado an alogo ao Teorema 6.3.2
para a f ormula DFP.
O signicado de s
T
k
y
k
> 0 precisa ser desvendado. Temos s
T
k
y
k
= s
T
k
(g
k+1

g
k
) = s
T
k
g(x
k
+ td
k
) s
T
k
g(x
k
) =

(t)

(0), onde (t) = f(x


k
+ td
k
).
Ou seja, quando s
T
k
y
k
> 0 o passo que acabou satisfazendo (6.1.3) e tal que

(t) >

(0). Em outras palavras, a derivada direcional de f na dire c ao de


d
k
e maior no ponto x
k+1
que no ponto x
k
.

E f acil ver que essa condi c ao e
satisfeita automaticamente, por exemplo, se a fun c ao f e convexa ao longo
da dire c ao d
k
.
Tanto a f ormula DFP quanto a BFGS satisfazem outra propriedade impor-
tante, que foi bastante destacada nos prim ordios dos metodos quase-Newton
(ver [70]): quando aplicados ` a minimiza c ao de uma quadr atica com Hessiana
denida positiva e com o passo t calculado como o minimizador da fun c ao ao
longo da dire c ao d
k
, a convergencia ao minimizador da quadr atica e obtida
em no m aximo n itera c oes. Sabe-se, por outro lado, que a f ormula BFGS e
prefervel ` a DFP, o que foi vericado experimentalmente ao longo dos anos,
e parcialmente explicado do ponto de vista te orico por Powell e outros. Ver
[165] e [157]. A teoria de convergencia de algoritmos baseados na f ormula
BFGS ainda apresenta pontos n ao elucidados. O Algoritmo 6.3.3 e uma im-
plementa c ao de um esquema BFGS como caso particular do esquema geral
da primeira se c ao deste captulo, onde, simplesmente, as dire c oes que n ao
satisfazem (6.1.4) e (6.1.5) s ao descartadas. Com a gera c ao BFGS e possvel
observar na pr atica que esse descarte e extremamente raro.
Algoritmo 6.3.3 - BFGS globalizado.
Sejam (0, 1), > 0, (0, 1), x
0
IR
n
, H
0
= H
T
0
, H
0
> 0 (p. ex.,
H
0
= I).
Dados x
k
, H
k
e g
k
= f(x
k
) ,= 0,
(1) d
k
= H
k
g
k
.
(2) Se (g
T
k
d
k
> |g
k
| |d
k
|), substituir d
k
por g
k
e H
k
por I. Se
(|d
k
| < |g
k
|) substituir d
k
por |g
k
|d
k
/|d
k
|
118 CHAPTER 6. MINIMIZAC

AO IRRESTRITA E BUSCA LINEAR
(3) Fazer backtracking ate que
f(x
k
+td
k
) f(x
k
) +tg
T
k
d
k
.
(4) x
k+1
= x
k
+td
k
, s
k
= x
k+1
x
k
, y
k
= g
k+1
g
k
.
Se s
T
k
y
k
0, ent ao H
k+1
= H
k
caso contr ario,
H
k+1
= H
k
+
(s
k
H
k
y
k
)s
T
k
+s
k
(s
k
H
k
y
k
)
T
s
T
k
y
k

(s
k
H
k
y
k
)
T
y
k
s
k
s
T
k
(s
T
k
y
k
)
2
.
Exerccio 6.18: Uma outra f ormula secante e obtida projetando-se B
k
na variedade Bs
k
= y
k
segundo a norma de Frobenius (ver exerccio 5.3).
Determinar esta atualiza c ao, conhecida como primeiro metodo de Broyden,
mostrando que:
(a) B
k+1
= B
k
+
(y
k
B
k
s
k
)s
T
k
s
T
k
s
k
.
(b) B
1
k+1
= B
1
k
+
(s
k
B
1
k
y
k
)s
T
k
B
1
k
s
T
k
B
1
k
y
k
, ou seja,
H
k+1
= H
k
+
(s
k
H
k
y
k
)s
T
k
H
k
s
T
k
H
k
y
k
.
(c) |B
k+1
B
k
|
2
|BB
k
|
2
para toda B IR
nn
tal que Bs
k
= y
k
.
Exerccio 6.19: Para A IR
nn
, mostrar que
1
2
(A + A
T
) e a matriz
simetrica mais pr oxima de A na norma de Frobenius.
Exerccio 6.20: Seguindo a mesma ideia do primeiro metodo de Broyden
(Exerccio 6.18), mas impondo tambem simetria, encontrar a f ormula PSB
(Powell symmetric Broyden, [162]):
B
k+1
= B
k
+
(y
k
B
k
s
k
)s
T
k
+s
k
(y
k
B
k
s
k
)
T
s
T
k
s
k

(y
k
B
k
s
k
)
T
s
k
s
k
s
T
k
(s
T
k
s
k
)
2
.
Exerccio 6.21:
(a) Construir a f ormula PSB tipo H.
6.3. M

ETODOS QUASE-NEWTON 119


(b) Infelizmente, a atualiza c ao PSB nem sempre gera matrizes denidas
positivas. Mostrar que numa vizinhan ca de x

tal que
2
f(x

) > 0,
se B
k
> 0, B
k+1
dada pela f ormula PSB tambem e denida posi-
tiva.
De maneira an aloga ao que zemos para obter a f ormula BFGS, tambem
podemos determinar uma atualiza c ao secante simetrica e de posto unit ario.
Queremos B
k+1
s
k
= y
k
, onde B
k+1
= B
k
+B
k
. Ent ao, (B
k
+B
k
)s
k
= y
k
,
ou seja B
k
s
k
= y
k
B
k
s
k
. Para que haja simetria, fazemos:
B
k
=
(y
k
B
k
s
k
)(y
k
B
k
s
k
)
T
(y
k
B
k
s
k
)
T
s
k
.
Obtemos assim a f ormula chamada Atualiza c ao simetrica de posto um,
B
k+1
= B
k
+
(y
k
B
k
s
k
)(y
k
B
k
s
k
)
T
(y
k
B
k
s
k
)
T
s
k
. (6.3.10)
Exerccio 6.22: Mostrar que a formula c ao dual para a atualiza c ao simetrica
de posto um e dada por:
H
k+1
= H
k
+
(s
k
H
k
y
k
)(s
k
H
k
y
k
)
T
(s
k
H
k
y
k
)
T
y
k
.
A atualiza c ao simetrica de posto um n ao gera necessariamente matrizes
denidas positivas, e, tampouco h a garantia de que o denominador de (6.3.10)
seja diferente de zero. Isto sugere que esta atualiza c ao e propensa a sev-
era instabilidade numerica. Entretanto, os resultados pr aticos obtidos s ao
surpreendentemente bons. A descoberta de uma teoria explicativa para o
comportamento desta f ormula ainda constitui um desao. A atualiza c ao de
posto um foi reinventada v arias vezes por diversos autores e j a aparecia no
artigo pioneiro de Davidon em 1959. Um resultado muito interessante para
fun c oes quadr aticas e dado no seguinte teorema.
Teorema 6.3.4
Se f(x) =
1
2
x
T
Gx+b
T
x+c, G > 0, se a f ormula (6.3.10) est a bem denida
em todas as itera c oes, se os incrementos s ao linearmente independentes e
se o passo t 1 e usado para todo k, ent ao H
n
= G
1
, e portanto, x
n+1
e
120 CHAPTER 6. MINIMIZAC

AO IRRESTRITA E BUSCA LINEAR
a solu c ao.
Exerccio 6.23: Provar o Teorema 6.3.4 (ver, por exemplo, [122] ).
Chegamos ao ponto em que e necess ario compatibilizar os metodos quase-
Newton locais, estudados no Captulo 5, que, via de regra, tem con-
vergencia superlinear, com a globaliza c ao introduzida nos algoritmos 6.3.1
e 6.3.3. Esses algoritmos s ao casos particulares do Algoritmo 6.1.6, e, por-
tanto, s ao globalmente convergentes no sentido de que todo ponto limite de
uma seq uencia gerada por qualquer um deles deve ser estacion ario. No en-
tanto, essa propriedade global est a baseada nas salvaguardas tomadas para
que (6.1.4) e (6.1.5) sejam satisfeitas, e n ao nas caractersticas pr oprias dos
metodos secantes. Como no caso do metodo de Newton globalizado, seria
interessante que, em circunst ancias bem denidas, as itera c oes puramente
locais e as globais fossem as mesmas, para que o metodo global possa desfru-
tar da velocidade de convergencia do local. No seguinte teorema, resolvemos
parcialmente esse problema.
Teorema 6.3.5
Seja x

IR
n
tal que f(x

) = 0, f C
3
(IR
n
),
2
f(x

) > 0. Suponhamos
que x

e um ponto limite da seq uencia innita x


k
, gerada pelo Algoritmo
6.3.1 com (0,
1
2
), que as condi c oes (6.1.4) e (6.1.5) s ao sempre satisfeitas
por d
k
= B
1
k
g(x
k
) (ou d
k
= H
k
g(x
k
) na formula c ao dual), as matrizes
B
1
k
(H
k
) est ao uniformemente limitadas (|B
1
k
| M ou |H
k
| M para
todo k) e que lim
k
|[B
k

2
f(x

)]d
k
|
|d
k
|
= 0 (condi c ao Dennis-More). Ent ao,
(a) A seq uencia x
k
converge para x

;
(b) existe > 0 tal que, se |x
k
x

| ,
f(x
k
+d
k
) f(x
k
) +g
T
k
d
k
,
(c) a convergencia e superlinear.
Prova: Pela hip otese de limita c ao uniforme de |B
1
k
| (ou |H
k
|) a con-
vergencia de x
k
para x

segue exatamente como no Teorema 6.2.2. Supon-


hamos, por um momento, que (b) se satisfaz. Ent ao, para k sucientemente
grande, n ao e necess ario backtracking e t = 1 e sempre o passo aceito.
Assim, para esses valores de k, o algoritmo e um quase-Newton puro que
satisfaz a condi c ao Dennis-More. Portanto, a convergencia superlinear re-
sulta do Teorema Dennis-More, provado no Captulo 5.
6.3. M

ETODOS QUASE-NEWTON 121


Em conseq uencia, somente precisamos provar (b).
A expans ao de Taylor para f em torno de x
k
e dada por:
f(x
k
+d
k
) = f(x
k
) +g
T
k
d
k
+
1
2
d
T
k

2
f(x
k
)d
k
+r
2
(d
k
) (6.3.11)
onde lim
d
k
0
r
2
(d
k
)
|d
k
|
2
= 0.
Como B
k
d
k
= g
k
, segue que g
T
k
d
k
= d
T
k
B
k
d
k
e, substituindo em (6.3.11)
temos:
f(x
k
+d
k
) = f(x
k
) d
T
k
B
k
d
k
+
1
2
d
T
k

2
f(x
k
)d
k
+r
2
(d
k
) . (6.3.12)
Suponhamos por absurdo, como no Teorema (6.2.9), que existe um conjunto
innito de ndices K
1
tal que, para todo k K
1
,
f(x
k
+d
k
) > f(x
k
) +g
T
k
d
k
= f(x
k
) d
T
k
B
k
d
k
.
Ent ao,
f(x
k
) d
T
k
[B
k

2
f(x
k
)]d
k

1
2
d
T
k

2
f(x
k
)d
k
+r
2
(d
k
)
> f(x
k
) d
T
k
[B
k

2
f(x
k
)]d
k
d
T
k

2
f(x
k
)d
k
.
Ou seja,
r
2
(d
k
)
|d
k
|
2
> (1 )
d
T
k
|d
k
|
(B
k

2
f(x
k
))
d
k
|d
k
|
+
_
1
2

_
d
T
k

2
f(x
k
)d
k
d
T
k
d
k
.
Portanto,
r
2
(d
k
)
|d
k
|
2
(1 )
d
T
k
|d
k
|
(B
k

2
f(x
k
))
d
k
|d
k
|
+
_
1
2

_

1
(k) . (6.3.13)
Tomando limites para k K
1
em ambos membros de (6.3.13), usando a
condi c ao Dennis-More da hip otese do teorema, e a continuidade dos auto-
valores, obtemos
0 = lim
kK
1
r
2
(d
k
)
|d
k
|
2
(
1
2
)
1
,
onde
1
e o menor autovalor de
2
f(x

). Isto e uma contradi c ao, porque,


por hip otese < 1/2 e a Hessiana em x

e denida positiva. QED


122 CHAPTER 6. MINIMIZAC

AO IRRESTRITA E BUSCA LINEAR
O resultado acima n ao prova a superlinearidade dos algoritmos 6.3.1 ou
6.3.3. Como vimos no Captulo 5, a condi c ao Dennis-More pode ser de-
duzida da equa c ao secante e da propriedade lim
k
|B
k+1
B
k
| = 0, mas
esta propriedade precisa ser provada para metodos secantes especcos. No
entanto, o Teorema 6.3.5 provoca o sentimento de que, em muitos casos, os
metodos de minimiza c ao caracterizados pela condi c ao secante ser ao super-
linearmente convergentes.
6.4 Metodos de Newton truncados com busca lin-
ear
Vimos que, para calcular a dire c ao de busca, o metodo de Newton pre-
cisa resolver um sistema linear, o que demanda O(n
3
/6) opera c oes no caso
denso, e que o c alculo da dire c ao nos quase-Newton envolve O(n
2
) opera c oes.
Quando n e grande e a Hessiana e esparsa, o metodo de Newton pode ser
implementado atraves de fatora c oes de Cholesky que aproveitem a esparsi-
dade da matriz, armazenando apenas os elementos n ao-nulos. Tambem ex-
istem implementa c oes de metodos quase-Newton para problemas de grande
porte. Nesse caso, em vez de armazenar as matrizes H
k
(da formula c ao
dual) s ao guardados os ultimos vetores que contribuem para a deni c ao da
atualiza c ao, descartando os antigos. Essas implementa c oes se dizem de
mem oria limitada. Ver [157].
A ultima alternativa e usar um metodo iterativo para resolver o sistema lin-
ear (6.3.1). Neste caso, o metodo geralmente recomendado e o de gradientes
conjugados, devido ` a matriz ser simetrica e, muitas vezes, denida positiva.
Como no caso de resolu c ao de sistemas, falaremos, neste caso, de metodos
de Newton truncados. No entanto, os metodos de Newton truncados com
busca linear n ao desfrutam de grande prestgio no contexto da minimiza c ao
irrestrita. A raz ao e, provavelmente, que um tipo diferente de globaliza c ao,
baseado em regi oes de conan ca, se adapta melhor ` a resolu c ao iterativa de
(6.3.1) que as buscas lineares. Por isso, nos limitaremos aqui a denir um
possvel metodo de Newton truncado com buscas lineares e deixaremos suas
propriedades para serem analisadas pelo leitor.
Algoritmo 6.4.1 - Newton truncado globalizado.
Sejam (0, 1), > 0, (0, 1) e
k
(0, 1) para todo k = 0, 1, 2, . . ..
124 CHAPTER 6. MINIMIZAC

AO IRRESTRITA E BUSCA LINEAR
(1) Dado x
k
IR
n
, f(x
k
) ,= 0, obter d
k
satisfazendo:
1
2
d
T
k

2
f(x
k
)d
k
+g(x
k
)
T
d
k
< 0
e
|
2
f(x
k
)d
k
+f(x
k
)|
k
|g(x
k
)| .
(2) Se o c alculo de d
k
nas condi c oes acima n ao e possvel num tempo
razo avel, ou |d
k
| < |f(x
k
)|, ou f(x
k
)
T
d
k
> |f(x
k
)| |d
k
|
substituir d
k
por f(x
k
).
(3) Fazer backtracking ate que
f(x
k
+td
k
) f(x
k
) +tf(x
k
)
T
d
k
.
(4) x
k+1
= x
k
+td
k
e voltar para (1).
Exerccio 6.26: Analise as propriedades do Algoritmo 6.4.1.
Chapter 7
Regi oes de conan ca
No Captulo 5 estudamos, para certo tipo de problemas complexos, o pro-
cesso iterativo de resolu c ao que consiste em (a) montar um modelo simples
do problema original, baseado na informa c ao disponvel no ponto atual x
k
e (b) denir x
k+1
como a solu c ao deste modelo.
No Captulo 6, demos um passo adiante: consideramos a possibilidade
de que a solu c ao do modelo simples n ao fosse sucientemente boa, sendo
portanto rejeitada e substituda por uma nova aproxima c ao x
k+1
, um ponto
no segmento cujos extremos s ao x
k
e a solu c ao recusada, produzido pelo
processo de backtracking.
O backtracking, como outros procedimentos de busca linear, e muito
simples e, freq uentemente, efetivo. Entretanto, ele representa uma que-
bra da losoa baseada em (a) e (b). De fato, o primeiro ponto tentado
nos algoritmos newtonianos do Captulo 6 e o minimizador de um modelo
bastante natural baseado geralmente na f ormula de Taylor, mas os pontos
tentados depois da primeira rejei c ao n ao podem ser interpretados da mesma
maneira. Na realidade, conservando-nos no segmento [x
k
, ponto rejeitado],
estamos optando por uma delidade parcial ao primeiro subproblema, o que
n ao e f acil de se justicar pois, anal de contas, sua solu c ao foi descartada.
Os metodos de regi oes de conan ca, pelo contr ario, s ao radicaliza c oes do
esquema (a)(b). Neles, quando o minimizador do primeiro modelo e recu-
sado, a op c ao escolhida e modicar o subproblema diminuindo seu domnio
de deni c ao e calcular a pr oxima tentativa como a solu c ao do novo subprob-
lema. Assim, o segmento determinado pela primeira rejei c ao e imediata-
mente abandonado, com um aumento obvio no custo, j a que esse processo e
mais caro.
Contrariamente aos metodos com busca linear, os algoritmos de regi oes
125
126 CHAPTER 7. REGI

OES DE CONFIANC A
de conan ca se adaptam com bastante naturalidade a diversos problemas
com restri c oes, como veremos no contexto deste captulo.
7.1 Algoritmo geral
Consideramos o problema generico de otimiza c ao:
Minimizar f(x)
x ,
(7.1.1)
onde e um subconjunto arbitr ario de IR
n
. A ideia b asica e, a cada itera c ao,
construir uma aproxima c ao quadr atica para a fun c ao objetivo em torno do
ponto atual x
k
:
f(x)
k
(x) f(x
k
) +g(x
k
)
T
(x x
k
) +
1
2
(x x
k
)
T
B
k
(x x
k
) (7.1.2)
onde g(x
k
) = f(x
k
) e B
k
IR
nn
e simetrica.
Como o modelo quadr atico (7.1.2) deixa de ser representativo ` a medida
que x se afasta de x
k
, podemos conar em aproximar f(x) por
k
(x) numa
vizinhan ca de x
k
, ou seja, no conjunto:
x [ |x x
k
| , (7.1.3)
onde > 0 e | | e uma norma qualquer em IR
n
.
Dessa forma, o minimizador de
k
na regi ao (7.1.3) seria uma boa aprox-
ima c ao para o minimizador de f nesta mesma regi ao. No entanto, se o valor
de f no minimizador de
k
n ao e sucientemente menor que f(x
k
) reduzimos
o raio e denimos um novo subproblema com o domnio menor.
O algoritmo conceitual a seguir sistematiza essas ideias.
Algoritmo 7.1.1 - Regi oes de Conan ca.
Fixar
min
> 0, (0, 1), x
0
dado.
(1) Escolher
min
e B
k
simetrica.
Denir
k
(x) = f(x
k
) +g(x
k
)
T
(x x
k
) +
1
2
(x x
k
)
T
B
k
(x x
k
) .
(2) Encontrar x minimizador aproximado de
k
(x)
sujeito a x , |x x
k
| .
7.2. M

ETODO DE NEWTON 127


(3) Se f(x) f(x
k
) +[
k
(x)
k
(x
k
)],
denir x
k+1
= x e terminar a itera c ao.
Sen ao, escolher
novo
[0.1|x x
k
|, 0.9] ,
novo
e voltar
para (2).
Na forma apresentada, o algoritmo de regi oes de conan ca se aplica a
qualquer problema de otimiza c ao, com ou sem restri c oes. No entanto, os sub-
problemas de minimizar
k
em (7.1.3) podem ser mais difceis que o prob-
lema original, circunst ancia que e atenuada pela express ao minimizador
aproximado, usada no Passo 2. O raio original da regi ao de conan ca na
itera c ao k sempre e maior ou igual a um raio xo
min
. Isto representa
a necessidade de, pelo menos na primeira tentativa, sermos sucientemente
arrojados para n ao carmos com passos muito curtos. Mais ainda, o req-
uisito
min
facilita as provas de convergencia, mas n ao e essencial na
metodologia de regi oes de conan ca. O criterio de aceita c ao da solu c ao do
subproblema e dado no Passo 3. Nele se estabelece que a diminui c ao de f
deve ser pelo menos uma fra c ao da diminui c ao do modelo
k
. Usualmente,
escolhe-se = 0.1. Existem muitas regras pr aticas para denir o valor de
no come co de cada itera c ao, em fun c ao do exito ou fracasso na itera c ao
anterior. A ideia e que, se a itera c ao anterior foi muito bem sucedida, no
sentido de que a fun c ao objetivo diminuiu quase tanto ou mais que o mod-
elo quadr atico, este merece mais conan ca e, conseq uentemente, deve ser
aumentado. Via de regra, para a deni c ao de
novo
no Passo 3, s ao usados
procedimentos muitos simples, por exemplo,
novo
= |x x
k
|/2.
O algoritmo de regi oes de conan ca foi analisado com esta generalidade
em [142] e [144]. Nas se c oes seguintes, estudaremos a aplica c ao desse metodo
para dois tipos de regi ao factvel: IR
n
e caixas ndimensionais.
7.2 Metodo de Newton
No Captulo 6 estudamos a globaliza c ao por backtracking do metodo de
Newton para o problema de minimiza c ao sem restri c oes:
Minimizar f(x)
x IR
n
.
(7.2.1)
Vimos que, com as salvaguardas necess arias, o metodo desfruta das pro-
priedades de convergencia global a pontos estacion arios de primeira ordem
do algoritmo generico 6.1.5. O esquema de regi oes de conan ca proporciona
128 CHAPTER 7. REGI

OES DE CONFIANC A
uma maneira muito mais natural de globalizar o metodo de Newton, com a
conserva c ao de subproblemas newtonianos para a determina c ao de tentati-
vas depois de eventuais fracassos. Alem disso, o novo procedimento permite
um resultado extremamente atraente: os pontos limite s ao pontos crticos
de primeira e segunda ordem.
Algoritmo 7.2.1 - Newton com regi oes de conan ca.
Fixar
min
> 0, (0, 1). Dado x
0
IR
n
.
(1) Escolher
min
, calcular B
k
=
2
f(x
k
).
(2) Denir x como minimizador global de
k
(x) sujeito a |xx
k
| .
(3) Se f(x) f(x
k
) +(
k
(x)
k
(x
k
)),
denir x
k+1
= x,
k
= e terminar a itera c ao.
Sen ao, escolher
novo
[0.1|x x
k
|, 0.9],
novo
e voltar
para (2).
O subproblema do Passo 2 consiste em encontrar um minimizador global
da quadr atica
k
na bola |x x
k
| . Para uma norma arbitr aria, este
problema pode ser bastante difcil. No entanto, quando | | e a norma
euclidiana, maneiras relativamente simples de resolve-lo s ao conhecidas. No
captulo 4 estudamos essa situa c ao com alguma aten c ao e vimos que x pode
ser calculada com o custo de algumas fatora c oes de Cholesky de matrizes da
forma B
k
+I. De fato, apesar de no Passo 2 falarmos de minimizador global
exato do subproblema, o algoritmo iterativo More-Sorensen, geralmente
usado, permite certo grau de inexatid ao, no sentido de que as sucessivas
itera c oes x

s ao solu c oes exatas de problemas da forma


Minimizar
k
(x) sujeita a |x x
k
|

,
onde

. Como a escolha de no Passo 1 ou no Passo 3 n ao e


rgida, podemos suspender o processo iterativo quando, digamos, [

[
0.1, e redenir, posteriormente,

. Dessa maneira, o n umero de


fatora c oes de Cholesky invocadas pelo metodo More-Sorensen ca bastante
moderado. No entanto, e evidente que o custo deste processo e bem maior
que o backtracking.
A seguir vamos mostrar que, a menos que x
k
seja um ponto estacion ario
de segunda ordem, a pr oxima itera c ao x
k+1
est a bem denida e satisfaz
f(x
k+1
) < f(x
k
). Este ser a um passo previo ` a prova de que todo ponto
limite e estacion ario de segunda ordem. Ao longo desta se c ao supomos que
7.2. M

ETODO DE NEWTON 129


f C
2
(IR
n
). Como em outros captulos, denotamos g(x) = f(x).
Teorema 7.2.2 - Boa deni c ao.
Se x
k
n ao e um ponto estacion ario de segunda ordem de (7.2.1) ent ao
x
k+1
est a bem denido e f(x
k+1
) < f(x
k
).
Prova: Se x
k
n ao e estacion ario de segunda ordem de (7.2.1), ent ao
g(x
k
) ,= 0 (7.2.2)
ou
g(x
k
) = 0 mas
2
f(x
k
) , 0 . (7.2.3)
Suponhamos inicialmente que g(x
k
) ,= 0. Seja d IR
n
tal que |d| = 1 e
g(x
k
)
T
d < 0. (7.2.4)
Seja x() minimizador de
k
(x) sujeita a |x x
k
| . Para simplicar,
escreveremos x = x(). Como |d| = , temos:

k
(x)
k
(x
k
+ d) = f(x
k
) +g(x
k
)
T
d +
1
2
d
T

2
f(x
k
)d .
Ou seja,

k
(x)f(x
k
) g(x
k
)
T
d+
1
2
d
T

2
f(x
k
)d g(x
k
)
T
d+
|
2
f(x
k
)|
2
2
.
Logo, como f(x
k
) =
k
(x
k
),

k
(x)
k
(x
k
)

g(x
k
)
T
d +
|
2
f(x
k
)|
2
.
Portanto, existe > 0 tal que para ,

k
(x)
k
(x
k
)


g
T
k
d
2
= a < 0. (7.2.5)
Denimos
() =
f(x) f(x
k
)

k
(x)
k
(x
k
)
(7.2.6)
130 CHAPTER 7. REGI

OES DE CONFIANC A
e ent ao, de (7.2.5) temos
[() 1[ =

f(x) f(x
k
) [[
k
(x)
k
(x
k
)]

k
(x)
k
(x
k
)

f(x)
k
(x)

k
(x)
k
(x
k
)

f(x) f(x
k
) g(x
k
)
T
(x x
k
)
1
2
(x x
k
)
T

2
f(x
k
)(x x
k
)

k
(x)
k
(x
k
)

o(
2
)/(a) 0.
Logo, lim
0
() = 1, ou seja, existe (0, ] tal que para ,
f(x()) f(x
k
) +[
k
(x())
k
(x
k
)]. (7.2.7)
Portanto, x
k+1
est a bem denido neste caso.
Suponhamos agora que vale (7.2.3). Ent ao existe d IR
n
tal que |d| = 1
e
d
T

2
f(x
k
)d < 0. (7.2.8)
Como antes, seja x = x() minimizador global de
k
(x) sujeito a |xx
k
|
.
Assim, por (7.2.3), segue que para
1
,

k
(x)
k
(x
k
+ d) = f(x
k
) +
1
2
d
T

2
f(x
k
)d .
Ou seja,

k
(x)
k
(x
k
)

2

1
2
d
T

2
f(x
k
)d .
Portanto, existe > 0 tal que para ,

k
(x)
k
(x
k
)

2

1
4
d
T

2
f(x
k
)d = b < 0 . (7.2.9)
Portanto,
[() 1[ =

f(x)
k
(x)

k
(x) (x
k
)

o(|x x
k
|
2
)

2
0.
Logo, lim
0
() = 1. Assim, para sucientemente pequeno, (7.2.7) se
vericar a, o que completa a prova. QED
7.2. M

ETODO DE NEWTON 131


A convergencia global para pontos que satisfazem as condi c oes necess arias
de segunda ordem e provada no seguinte teorema.
Teorema 7.2.3 - Convergencia global de segunda ordem.
Seja x
k
uma seq uencia innita gerada pelo Algoritmo 7.2.1. Se x

e
um ponto limite de x
k
, ent ao f(x

) = 0 e
2
f(x

) 0.
Prova: Seja K
1
um conjunto innito de ndices tal que
lim
kK
1
x
k
= x

.
H a duas possibilidades a serem consideradas:
inf
kK
1

k
= 0 (7.2.10)
ou
inf
kK
1

k
> 0 . (7.2.11)
Assumindo inicialmente (7.2.10), ent ao existe K
2

K
1
tal que
lim
kK
2

k
= 0 . (7.2.12)
Desta forma, existe k
2
^ tal que
k
<
min
para todo k K
3
, onde
K
3
k K
2
[ k k
2
. Mas, em cada itera c ao k tentamos inicialmente o
raio
min
. Ent ao, para todo k K
3
, existem
k
e x(
k
) tais que
x(
k
) e solu c ao global de:
Minimizar
k
(x)
|x x
k
|
k
(7.2.13)
mas
f(x(
k
)) > f(x
k
) +[
k
(x(
k
))
k
(x
k
)] . (7.2.14)
Pela atualiza c ao do raio de conan ca no Passo 3 do Algoritmo 7.2.1,
temos

k
> 0.1|x(
k
) x
k
| . (7.2.15)
Logo, por (7.2.12) e (7.2.15) segue que
lim
kK
3
|x(
k
) x
k
| = 0 . (7.2.16)
Suponhamos que x

n ao seja um minimizador local de (7.2.1). Ent ao


f(x

) = g(x

) ,= 0 (7.2.17)
132 CHAPTER 7. REGI

OES DE CONFIANC A
ou
g(x

) = 0 mas
2
f(x

) , 0 . (7.2.18)
Se ocorre (7.2.17), ent ao existe d IR
n
tal que |d| = 1 e
g(x

)
T
d < 0 . (7.2.19)
Ent ao, para k K
3
,

k
(x(
k
))
k
(x
k
+
k
d) = f(x
k
) +
k
g(x
k
)
T
d +

2
k
2
d
T

2
f(x
k
)d
ou seja,

k
(x(
k
)) f(x
k
)
k
g(x
k
)
T
d +

2
k
2
|
2
f(x
k
)|.
Logo, como f(x
k
) =
k
(x
k
),

k
(x(
k
))
k
(x
k
)

k
g(x
k
)
T
d +
|
2
f(x
k
)|
2

k
.
Portanto, existe k
3
^ tal que para k K
4
k K
3
[ k k
3
,

k
(x(
k
))
k
(x
k
)

g(x

)
T
d
2
c
1
< 0 . (7.2.20)
Denimos

k
=
f(x(
k
)) f(x
k
)

k
(x(
k
))
k
(x
k
)
. (7.2.21)
Ent ao
[
k
1[ =

f(x(
k
)) f(x
k
) [
k
(x(
k
))
k
(x
k
)]

k
(x(
k
))
k
(x
k
)

f(x(
k
))
k
(x(
k
))

k
(x(
k
))
k
(x
k
)

=
o(|x(
k
) x
k
|
2
)
c
1

k
= o(
k
) .
Portanto,
lim
kK
4

k
= 1
o que contradiz o fato de que os raios
k
eram rejeitados. Logo f(x

) = 0.
7.2. M

ETODO DE NEWTON 133


Vamos agora assumir a validade de (7.2.18). Ent ao existe d IR
n
tal
que |d| = 1 e
d
T

2
f(x

)d < 0 . (7.2.22)
Para k K
3
, denimos d
k
=
k
d se g(x
k
)
T
d 0 e d
k
=
k
d se
g(x
k
)
T
d > 0.
Ent ao,

k
(x(
k
))
k
(x
k
+d
k
) f(x
k
) +

2
k
2
d
T

2
f(x
k
)d,
logo,

k
(x(
k
))
k
(x
k
)

2
k

1
2
d
T

2
f(x
k
)d .
Portanto, existe k
4
^ tal que para k K
5
k K
3
[ k k
4
,

k
(x(
k
))
k
(x
k
)

2
k

1
4
d
T

2
f(x

)d c
2
< 0 .
Assim, usando, de novo, a aproxima c ao de Taylor de segunda ordem,
temos:
[
k
1[ =

f(x(
k
))
k
(x(
k
))

k
(x(
k
)) (x
k
)

1
[c
2
[
o(|x(
k
) x
k
|
2
)

2
k
.
Portanto lim
kK
5

k
= 1, o que contradiz o fato de
k
ser um raio rejeitado.
Assim,
2
f(x

) 0, o que conclui a prova quando vale (7.2.10).


Vamos agora considerar a possibilidade (7.2.11). Como lim
kK
1
x
k
= x

e
f(x
k
)
kN
e monotonicamente decrescente, temos
lim
kK
1
(f(x
k+1
) f(x
k
)) = 0 . (7.2.23)
Mas, pelo Passo 3 do Algoritmo 7.2.1,
f(x
k+1
) f(x
k
) +[
k
(x
k+1
)
k
(x
k
)] . (7.2.24)
Ent ao, por (7.2.23) e (7.2.24), segue que
lim
kK
1
(
k
(x
k+1
)
k
(x
k
)) = 0 . (7.2.25)
134 CHAPTER 7. REGI

OES DE CONFIANC A
Denimos = inf
kK
1

k
> 0 e chamamos x a uma solu c ao global de
Minimizar g(x

)
T
(x x

) +
1
2
(x x

)
T

2
f(x

)(x x

)
|x x

| /2 .
(7.2.26)
Seja k
5
^ tal que
|x
k
x

| /2 (7.2.27)
para todo k K
6
k K
1
[ k k
5
.
Para k K
6
, por (7.2.26) e (7.2.27), temos
| x x
k
|
k
, (7.2.28)
ou seja, x e factvel para o subproblema do Passo 2 do Algoritmo 7.2.1.
Ent ao, pelo fato de x
k+1
ser minimizador global de
k
(x) em |xx
k
|
k
,
segue que

k
(x
k+1
)
k
( x) = f(x
k
) +g(x
k
)
T
( x x
k
) +
1
2
( x x
k
)
T

2
f(x
k
)( x x
k
)
(7.2.29)
ou seja,

k
(x
k+1
)
k
(x
k
) g(x
k
)
T
( xx
k
)+
1
2
( xx
k
)
T

2
f(x
k
)( xx
k
) . (7.2.30)
Por (7.2.25), passando (7.2.30) ao limite para k K
6
, obtemos:
0 g(x

)
T
( x x

) +
1
2
( x x

)
T

2
f(x

)( x x

),
portanto x

e minimizador de (7.2.26) com a restri c ao |x x

| /2
inativa. Logo g(x

) = 0 e
2
f(x

) 0 pelas condi c oes necess arias de oti-


malidade de segunda ordem para minimiza c ao sem restri c oes. Isso completa
a prova. QED
Como no caso do metodo de Newton com backtracking, ca apenas
a quest ao da compatibiliza c ao da estrategia global com o algoritmo local.
Ou seja, quando
2
f(x

) e denida positiva, gostaramos que a seq uencia


gerada pelo Algoritmo 7.2.1 convergisse para x

e coincidisse com a denida


pelo algoritmo local aplicado a g(x) = 0. Deixamos essa prova, que segue
as mesmas linhas do Teorema 6.2.3, como exerccio para o leitor.
7.3. MINIMIZAC

AO EM CAIXAS 135
7.3 Minimiza cao em caixas
Nesta se c ao vamos considerar o seguinte problema:
Minimizar f(x)
l x u
(7.3.1)
com f : IR
n
IR, l
i
IR e u
i
IR para todo i = 1, . . . , n.
A express ao [x]
i
(respectivamente [x]
i
) deve ser interpretada
como [x]
i
< (respectivamente [x]
i
> ). Portanto, o problema de min-
imiza c ao sem restri c oes, estudado no captulo 6 e na Se c ao 7.2, e um caso
particular de (7.3.1). Aqui daremos um sentido preciso ` a express ao mini-
mizador aproximado, que usamos na deni c ao do Algoritmo 7.1.1. A ideia e
denir um algoritmo facilmente adapt avel para problemas de grande porte.
Os subproblemas que resolveremos ser ao minimiza c oes de quadr aticas em
regi oes que, via de regra, ser ao caixas ou bolas, portanto, poderemos usar
diferentes metodos estudados no Captulo 4, dependendendo do tamanho
e estrutura do problema. O algoritmo principal pode ser introduzido com
qualquer norma para denir a regi ao de conan ca. No entanto, quando a
regi ao factvel e uma caixa limitada, a norma | |

e a mais adequada,
porque a intersec c ao de l x u com |x x
k
|

e, tambem, uma
caixa. Nesse caso, se us assemos, por exemplo, a norma euclidiana o domnio
do subproblema seria uma regi ao bem mais complicada.
Algoritmo 7.3.1 - Minimiza c ao em caixas.
Sejam
min
> 0, (0, 1), | | uma norma arbitr aria e x
0
um ponto
inicial factvel.
Dado x
k
tal que l x
k
u, obter x
k+1
da seguinte maneira:
(1) Escolher
min
e B
k
IR
nn
simetrica tal que |B
k
|
2
M
k
.
(2) Encontrar x
Q
k
solu c ao global de
Minimizar Q
k
(x) f(x
k
) +g(x
k
)
T
(x x
k
) +
M
k
2
|x x
k
|
2
2
l x u
|x x
k
|
(7.3.2)
(3) Encontrar x tal que

k
(x) Q
k
(x
Q
k
)
l x u
|x x
k
|
(7.3.3)
136 CHAPTER 7. REGI

OES DE CONFIANC A
(4) Se f(x) f(x
k
) +[
k
(x)
k
(x
k
)],
denir x
k+1
= x,
k
= e terminar a itera c ao.
Sen ao, escolher
novo
[0.1|x x
k
|, 0.9] ,
novo
e voltar
para (2).
O ponto x que e computado no Passo 3 e o que chamamos solu c ao
aproximada de
Minimizar
k
(x)
sujeita a l x u, |x x
k
| .
(7.3.4)
A condi c ao exigida em (7.3.3) para essa solu c ao aproximada e muito fraca.
De fato, e f acil ver que, devido a |B
k
|
2
M
k
, temos
k
(x) Q
k
(x) para
todo x, portanto o pr oprio x
Q
k
satisfaz as condi c oes de (7.3.3). Por outro
lado, M
k
e x
Q
k
se calculam muito facilmente. M
k
pode ser igual a |B
k
|

,
que e o m aximo da soma dos m odulos das linhas de B
k
, e x
Q
k
e a proje c ao
de x
k
g(x
k
)/M
k
na caixa x IR
n
[ l x u, |x x
k
| . Ou seja,
chamando y
k
= x
k
g(x
k
)/M
k
, temos que, se | | = | |

,
[x
Q
k
]
i
= max l
i
, min [y
k
]
i
, u
i

para todo i = 1, . . . , n.
O Algoritmo 7.3.1 foi introduzido em [82]. Outros procedimentos para
minimizar em caixas, baseados em problemas f aceis diferentes, podem ser
encontrados em [41], [42], [43] e [44]. Qualquer metodo para minimizar
quadr aticas em caixas pode ser usado para resolver (aproximadamente)
(7.3.4). Esses algoritmos s ao, geralmente, iterativos. O aconselh avel e usar
como ponto inicial x
Q
k
, de maneira que a satisfa c ao das condi c oes (7.3.3)
car a automaticamente garantida. No entanto, um criterio de parada adi-
cional e necess ario para interromper o processo combinando uma aprox-
ima c ao razo avel na solu c ao de (7.3.4) com um tempo computacional toler avel.
As ideias dos metodos de Newton truncados vem em nossa ajuda. Como em
(4.3.3), denimos
P
por
[
P
(x)]
i
=
_

_
0 se x
i
= l

i
e [(x)]
i
> 0
0 se x
i
= u

i
e [(x)]
i
< 0
[(x)]
i
nos outros casos,
(7.3.5)
onde l

i
e u

i
s ao os limites da caixa x [ |x x
k
|

. Ent ao, x
satisfaz as condi c oes de primeira ordem para minimizador de (7.3.4) se

P
(x) = 0. (7.3.6)
7.3. MINIMIZAC

AO EM CAIXAS 137
Isto sugere que um criterio de parada razo avel para o processo iterativo
aplicado a (7.3.4) seja:
|
P
(x)|
k
|
P
(x
k
)|, (7.3.7)
com
k
(0, 1) (em geral,
k
0.1), o que evoca o criterio de Dembo, Eisen-
stat e Steihaug e, de fato, coincide com esse criterio no caso em que os limites
l

i
e u

i
s ao innitos. Por facilidade de exposi c ao, estamos tratando sempre
as quadr aticas Q e como fun c oes de x. Na pr atica, elas s ao manipuladas
como fun c oes de x x
k
, atraves de mudan cas de vari aveis obvias.
Finalmente, como (7.3.4) e apenas um subproblema, n ao se justicam
esfor cos enormes para sua resolu c ao. Isto signica que, se por qualquer
motivo, o minimizador de quadr aticas tem diculdades para atingir (7.3.7),
sua execu c ao deve ser interrompida, lembrando que, de qualquer maneira, as
condi c oes (7.3.3) s ao sucientes para assegurar a continuidade do algoritmo
principal. Assim, e freq uente abortar a minimiza c ao da quadr atica quando
o n umero de itera c oes excede um n umero xo, digamos, 10, para problemas
grandes, ou quando o progresso obtido na ultima itera c ao e menor que a
decima parte do melhor progresso obtido nas itera c oes anteriores.
Como no caso das quadr aticas, denimos a dire c ao de Cauchy:
[g
p
(x)]
i
=
_

_
0 se x
i
= l
i
e [f(x)]
i
> 0
ou x
i
= u
i
e [f(x)]
i
< 0
[f(x)]
i
caso contr ario.
Pelas condi c oes de otimalidade de primeira ordem, obtemos a seguinte
caracteriza c ao para minimizadores locais de (7.3.1).
Teorema 7.3.2 - Condi c oes de otimalidade para (7.3.1)
Sejam x

minimizador local de (7.3.1) e f C


1
em = x IR
n
[ l x u.
Ent ao g
p
(x

) = 0.
Exerccio 7.1: Demonstrar o Teorema 7.3.2 usando a teoria do Captulo 2
e fornecer uma prova independente.
Como zemos com outros metodos, vamos provar agora que, se um
iterando n ao satisfaz as condi c oes de otimalidade de primeira ordem (neste
caso g
p
(x) = 0), o ponto seguinte pode ser calculado em tempo nito, e a
138 CHAPTER 7. REGI

OES DE CONFIANC A
fun c ao objetivo diminui.
Teorema 7.3.3 - Boa deni c ao.
Se g
p
(x
k
) ,= 0 ent ao x
k+1
est a bem denido e f(x
k+1
) < f(x
k
).
Prova: Como g
p
(x
k
) ,= 0, existe d IR
n
, d ,= 0 tal que d e factvel e de
descida. Ent ao, existe t > 0 tal que
l x
k
+td u
paa todo t [0, t] e
g(x
k
)
T
d < 0 .
Assim, para sucientemente pequeno, por (7.3.2) temos:
Q
k
(x
Q
k
) Q
k
_
x
k
+
d
|d|
_
= f(x
k
) + g(x
k
)
T
d
|d|
+
M
k

2
2
.
Ent ao
Q
k
(x
Q
k
) Q
k
(x
k
)

= g(x
k
)
T
d
|d|
+
M
2
.
Mas
k
(x
k
) = Q
k
(x
k
) e, escrevendo x = x(), temos que
k
(x)
Q
k
(x
Q
k
), portanto existe > 0 tal que

k
(x)
k
(x
k
)


g(x
k
)
T
d
2|d|
c
1
< 0 (7.3.8)
para todo (0, ].
Denimos, para (0, ],
() =
f(x) f(x
k
)

k
(x)
k
(x
k
)
. (7.3.9)
Ent ao, por (7.3.8), temos
[() 1[ =

f(x)
k
(x)

k
(x)
k
(x
k
)

f(x) f(x
k
) g(x
k
)
T
(x x
k
)
c
1

(x x
k
)
T
B
k
(x x
k
)
2c
1

o(|x x
k
|)
[c
1
[
+
|B
k
|
2
|x x
k
|
2
2
2[c
1
[

o()
[c
1
[
+
c
2
M
k

2[c
1
[
,
7.3. MINIMIZAC

AO EM CAIXAS 139
onde c
2
> 0 vem da equivalencia das normas em IR
n
: | |
2
c
2
| |.
Logo, lim
0
() = 1 e portanto, ap os um n umero nito de redu c oes no
raio de conan ca , a condi c ao f(x) f(x
k
)+[
k
(x)
k
(x
k
)] e satisfeita
e o novo ponto x
k+1
est a bem denido. QED
No ultimo teorema deste captulo, mostramos que todo ponto limite de
uma seq uencia gerada pelo Algoritmo 7.3.1 e estacion ario.
Teorema 7.3.4 - Convergencia global.
Seja x
k
uma seq uencia innita gerada pelo Algoritmo 7.3.1. Se lim
kK
1
x
k
=
x

, onde K
1
e um subconjunto innito de ndices e M
k
e limitado para
k K
1
, ent ao g
p
(x

) = 0.
Prova: Devemos considerar duas possibilidades:
inf
kK
1

k
= 0 (7.3.10)
ou
inf
kK
1

k
> 0 . (7.3.11)
Vamos assumir inicialmente que vale (7.3.10). Ent ao existe K
2

K
1
tal
que
lim
kK
2

k
= 0. (7.3.12)
Logo, existe k
2
K
2
tal que
k
<
min
para todo k K
3
k K
2
[ k k
2
.
Mas, a cada itera c ao k, tentamos inicialmente um raio
min
. Logo,
para todo k K
3
, existem
k
, x
Q
k
(
k
) e x(
k
) tais que x
Q
k
(
k
) e solu c ao
global de
Minimizar Q
k
(x)
l x u
|x x
k
|
k
,
vale a desigualdade

k
(x(
k
)) Q
k
(x
Q
k
(
k
))
mas,
f(x(
k
)) > f(x
k
) +[
k
(x(
k
))
k
(x
k
)] . (7.3.13)
Agora, pela atualiza c ao do raio de conan ca no Passo 4 do Algoritmo
7.3.1,

k
0.1|x(
k
) x
k
| . (7.3.14)
140 CHAPTER 7. REGI

OES DE CONFIANC A
Logo, por (7.3.12) e (7.3.14) segue que
lim
kK
3
|x(
k
) x
k
| = 0. (7.3.15)
Suponhamos que g
p
(x

) ,= 0. Ent ao existe d IR
n
, d ,= 0 tal que para
todo [0, 1],
l x

+d u (7.3.16)
e
g(x

)
T
d < 0 . (7.3.17)
Por (7.3.16), existe k
3
K
3
, k
3
k
2
tal que
l x
k
+

2
d u (7.3.18)
para todo k K
4
k K
3
[ k k
3
, [0, 1].
Denimos, para k K
4
,
d
k
=
|x(
k
) x
k
|
|d|
d . (7.3.19)
Por (7.3.15) e (7.3.18), existe k
4
K
4
tal que
l x
k
+d
k
u
para todo k K
5
k K
4
[ k k
4
.
Claramente, |d
k
| = |x() x
k
|
k
. Logo, por (7.3.2), (7.3.3) e
(7.3.19),

k
(x(
k
)) Q
k
(x
Q
k
(
k
)) Q
k
(x
k
+d
k
)
= f(x
k
) + g(x
k
)
T
d
k
+
M
k
2
|d
k
|
2
2
= f(x
k
) +
|x(
k
) x
k
|
|d|
g(x
k
)
T
d +
M
k
2
|d
k
|
2
2
para todo k K
5
.
Ent ao,

k
(x(
k
))
k
(x
k
)
|x(
k
) x
k
|
g(x
k
)
T
d
|d|
+
M
k
c
2
1
2
|d
k
| ,
onde c
1
> 0 vem da equivalencia das normas em IR
n
.
7.3. MINIMIZAC

AO EM CAIXAS 141
Portanto, por (7.3.15), (7.3.17), a continuidade de g e a limita c ao de
M
k
, existem c
2
< 0 e k
5
K
5
tais que

k
(x(
k
))
k
(x
k
)
|x(
k
) x
k
|
c
2
< 0 (7.3.20)
para todo k K
6
k K
5
[ k k
5
.
Denimos, para k K
6
,

k
=
f(x(
k
)) f(x
k
)

k
(x(
k
))
k
(x
k
)
.
Assim, temos

k
1 = a
k
+b
k
onde
a
k
=
f(x(
k
)) f(x
k
) g(x
k
)
T
(x(
k
) x
k
)

k
(x(
k
))
k
(x
k
)
e
b
k
=
1
2
(x(
k
) x
k
)
T
B
k
(x(
k
) x
k
)

k
(x(
k
))
k
(x
k
)
.
Agora, por (7.3.20) e pela equivalencia das normas em IR
n
,
[a
k
[
o(|x(
k
) x
k
|)
|x(
k
) x
k
|
e
[b
k
[
M
k
c
2
1
|x(
k
) x
k
|
2[c
2
[
.
Portanto, lim
kK
6
a
k
= 0 e pela limita c ao de M
k
, lim
kK
6
b
k
= 0. Ou seja,
lim
kK
6

k
= 1, o que contradiz (7.3.13). Dessa forma, (7.3.10) n ao pode se
vericar se g
p
(x

) ,= 0.
Vamos assumir agora a validade de (7.3.11). Como lim
kK
1
x
k
= x

e
f(x
k
)
kN
e monotonicamente decrescente, temos
lim
KK
1
(f(x
k+1
) f(x
k
)) = 0.
Mas, por (7.3.2), (7.3.3) e pelo Passo 4 do Algoritmo 7.3.1,
f(x
k+1
) f(x
k
) +[
k
(x
k+1
)
k
(x
k
)]
f(x
k
) +[Q
k
(x
Q
k
(
k
)) Q
k
(x
k
)].
142 CHAPTER 7. REGI

OES DE CONFIANC A
Logo,
lim
kK
4
Q
k
(x
Q
k
(
k
)) = 0. (7.3.21)
Denimos = inf
kK
1

k
> 0. Seja M > 0 tal que M
k
M para todo
k K
1
e seja x solu c ao global de:
Minimizar g(x

)
T
(x x

) +
M
2
|x x

|
2
2
l x u
|x x

| /2
(7.3.22)
Seja k
6
K
1
tal que
|x
k
x

| /2 (7.3.23)
para todo k K
7
k K
1
[ k k
6
.
Para k K
7
, por (7.3.22) e (7.3.23),
| x x
k
|
k
. (7.3.24)
Alem disso, por (7.3.22),
l x u . (7.3.25)
Ou seja, por (7.3.24) e (7.3.25) vemos que x e factvel para o problema
(7.3.2). Ent ao,
Q
k
(x
Q
k
(
k
)) Q
k
( x) (7.3.26)
para todo k K
7
.
Agora, pela deni c ao de x, por (7.3.26) e (7.3.21),
g(x

)
T
( x x

) +
M
2
| x x

|
2
2
= lim
kK
7
g(x
k
)
T
( x x
k
) +
M
2
| x x
k
|
2
2
= lim
kK
7
Q
k
( x) lim
kK
7
Q
k
(x
Q
k
(
k
)) = 0 .
Mas o valor da fun c ao objetivo de (7.3.22) em x

tambem e 0, portanto,
x

tambem e um minimizador global de (7.3.22). Escrevendo a condi c ao de


otimalidade para este problema, chegamos a g
p
(x

) = 0. QED
O Algoritmo 7.3.1 pode servir como modelo para a globaliza c ao por
regi oes de conan ca de todos os metodos newtonianos. A naturalidade de
sua adapta c ao ` a losoa dos Newton truncados j a foi comentada. Quando
as matrizes B
k
s ao atualizadas por f ormulas secantes, o algoritmo fornece
7.3. MINIMIZAC

AO EM CAIXAS 143
um esquema para globalizar esse tipo de metodos. Tal adapta c ao merece
alguns coment arios:
(a) Nos subproblemas (7.3.3) e (7.3.4), o fato de B
k
ser denida positiva
n ao tem maior relev ancia. Por isso, o procedimento de regi oes de conan ca
e mais adequado que o de buscas lineares para globalizar, por exemplo,
o algoritmo baseado na atualiza c ao de posto 1, e outros metodos onde as
aproxima c oes Hessianas n ao s ao necessariamente denidas positivas.
(b) O fato de B
1
k+1
ser facilmente gerado a partir de B
1
k
n ao pode ser
explorado em regi oes de conan ca como nas buscas lineares. Apenas quando
os limites do subproblema (7.3.4) s ao innitos ou muito grandes, o fato de
se ter B
1
k
facilmente disponvel e uma boa vantagem, pois permite resolver
exatamente o subproblema em um passo s o, se a matriz e denida positiva.
(c) Apesar da observa c ao (b), se B
1
k
e facilmente calcul avel, o ponto
x
k
B
1
k
g(x
k
) pode representar um excelente ponto inicial alternativo para
o algoritmo quadr atico, depois de projetado na regi ao factvel de (7.3.4).

E
inevit avel, porem, manter simultaneamente na mem oria B
k
e B
1
k
.
A compatibilidade do algoritmo global 7.3.1 com os algoritmos locais
subjacentes, nos moldes dos Teoremas 6.2.2 e 6.3.5 ca, mais uma vez, para
ser discutida pelos leitores.
144 CHAPTER 7. REGI

OES DE CONFIANC A
Chapter 8
Minimiza cao unidimensional
Alguns problemas de otimiza c ao consistem em minimizar fun c oes de uma
vari avel. Para esses problemas, podem-se usar os metodos gerais de mini-
miza c ao sem restri c oes, minimiza c ao em caixas, etc. De fato, um bom ex-
erccio para o estudante e vericar como se comportam os algoritmos gerais
em fun c oes univariadas. No entanto, a unidimensionalidade e uma estrutura
extremamente diferenciada, que justica o desenvolvimento de algoritmos
especcos.
Nas vers oes antigas de algoritmos de minimiza c ao de fun c oes de n vari aveis
com busca linear, esta busca era interpretada quase sempre como mini-
miza c ao unidimensional. Os metodos modernos usam, geralmente, buscas
lineares menos exigentes o que, na maioria dos casos e mais eciente. No en-
tanto, buscas lineares duras, semelhantes ` a minimiza c ao unidimensional,
s ao ainda usadas em alguns algoritmos atuais com resultados pr aticos sur-
preendentemente bons [50].
Neste captulo, nosso objetivo e apresentar diferentes tecnicas para mini-
miza c ao unidimensional, adequadas ` as propriedades especcas do problema
(existencia de derivadas, custo de avalia c ao da fun c ao e suavidade). Veremos
que, neste caso, a obten c ao de minimizadores globais e menos complicada
que no caso multivariado.
8.1 Metodos diretos para redu cao de incerteza
Uma fun c ao f de uma vari avel x no intervalo [a, b] e unimodal se existem

1
,
2
[a, b] tais que
145
146 CHAPTER 8. MINIMIZAC

AO UNIDIMENSIONAL
(i) f e estritamente descrescente para x <
1
,
(ii) f e estritamente crescente para x >
2
,
(iii) f e constante para x [
1
,
2
].

E f acil ver que os minimizadores locais de uma fun c ao unimodal em [a, b]


coincidem com os minimizadores globais. Ou seja, este conceito desfruta da
mesma propriedade de otimalidade global que a convexidade, com hip oteses
menos exigentes sobre a fun c ao.
Os metodos diretos para redu c ao de intervalos de incerteza se aplicam bem
a fun c oes unimodais. Nada exigem em rela c ao a continuidade ou existencia
de derivadas. A ideia b asica desses metodos e, uma vez conhecido um in-
tervalo [a, b] em que a fun c ao f e unimodal, reduzir este intervalo ate a
precis ao desejada. S ao aplic aveis a problemas com fun c oes cuja avalia c ao e
simples, pois geram um n umero de itera c oes (pouco complexas) maior que
o produzido pelos metodos polinomiais.
Dada a fun c ao f : IR IR, unimodal em [a, b], o algoritmo conceitual a
seguir obtem um intervalo reduzido contendo o minimizador de f em [a, b].
Algoritmo 8.1.1 - Redu c ao de incerteza.
Dados > 0 e o intervalo [a, b],
denir k = 0, a
0
= a, b
0
= b .
(1) Dados a
k
e b
k
, escolher c
k
e d
k
tais que
a
k
< c
k
< d
k
< b
k
.
(2) Calcular f(c
k
) e f(d
k
).
(3) Se f(c
k
) < f(d
k
), fazer a
k+1
= a
k
, b
k+1
= d
k
sen ao a
k+1
= c
k
, b
k+1
= d
k
.
(4) Se b
k+1
a
k+1
< , parar
sen ao k = k + 1 e voltar para (1).
`
A primeira vista, seriam necess arias duas avalia c oes da fun c ao a cada redu c ao
do intervalo. Para que isso n ao ocorra, podemos escolher c
k
e d
k
de tal forma
que o ponto que permanece no interior do intervalo reduzido seja um dos
escolhidos para a pr oxima avalia c ao. Apresentaremos duas estrategias para
se efetuar estas escolhas: a busca de Fibonacci e o metodo da se c ao aurea.
Para a busca de Fibonacci precisamos xar a priori o n umero n de avalia c oes
da fun c ao a ser feito ou, equivalentemente, a redu c ao desej avel no intervalo.
8.1. M

ETODOS DIRETOS PARA REDUC



AO DE INCERTEZA 147
Os n umeros intermedi arios s ao ent ao determinados baseados nos n umeros
de Fibonacci, denidos de modo recursivo como se segue:
F
0
= F
1
= 1; F
k
= F
k2
+F
k1
, k = 2, 3, . . . (8.1.1)
Desta forma, uma vez denido o n umero n de avalia c oes, a escolha dos
valores c
k
e d
k
no passo (1) do Algoritmo 8.1.1 e feita da seguinte maneira:
c
k
= b
k

F
nk1
F
nk
(b
k
a
k
)
d
k
= a
k
+
F
nk1
F
nk
(b
k
a
k
) .
(8.1.2)
Exerccio 8.1: Vericar que, com o procedimento (8.1.2), c
k+1
coincide
com d
k
e d
k+1
coincide com c
k
.
O metodo da se c ao aurea e obtido da seq uencia de Fibonacci fazendo-se o
n umero n tender para innito. Assim, no limite, a equa c ao de diferen cas de
Fibonacci (8.1.1) passa a fornecer a divis ao do intervalo [a, b] na raz ao aurea
= (

51)/2 0.618, que e exatamente a solu c ao do problema da divis ao


aurea ou do ret angulo aureo, proposto pelos gregos por volta de 500 a.C.
Na antiguidade, um certo car ater mstico foi atribudo a este valor, o que
justica o qualicativo aureo. Em arquitetura, esta raz ao, considerada
esteticamente agrad avel, se preserva desde o Parthenon ate projetos de Le
Corbusier. No metodo da se c ao aurea, a escolha dos valores c
k
e d
k
e feita
como se segue:
c
k
= b
k
(b
k
a
k
)
d
k
= a
k
+(b
k
a
k
) .
(8.1.3)
Exerccio 8.2: Vericar que c
k+1
coincide com d
k
e d
k+1
coincide com c
k
no procedimento (8.1.3).

E possvel provar que, xado o n umero de avalia c oes que ser a realizado,
Fibonacci e o metodo otimo para redu c ao de incerteza, pois obtem a m axima
redu c ao para o caso mais desfavor avel (ver, por exemplo, [197]). No entanto,
no metodo da se c ao aurea n ao e necess ario xar-se previamente o n umero
de avalia c oes de fun c ao, o que elimina um pre-requisito pouco natural, do
ponto de vista do c alculo numerico, do metodo de Fibonacci. Na pr atica
de otimiza c ao, criterios de parada baseados no valor da fun c ao objetivo s ao
mais confort aveis, e esses criterios podem ser implementados sem problemas
no metodo aureo.
148 CHAPTER 8. MINIMIZAC

AO UNIDIMENSIONAL
Uma outra estrategia para redu c ao de incerteza, bastante simples e intuitiva,
e o metodo da bisse c ao. Este metodo e usado quando a fun c ao f : [a, b] IR
e diferenci avel, unimodal e tem derivada com avalia c ao computacionalmente
vi avel.
Algoritmo 8.1.2 - Metodo da Bisse c ao.
Dado (toler ancia para redu c ao do intervalo [a, b]),
(1) a
0
= a, b
0
= b.
(2) Dados a
i
, b
i
, calcular c
i
=
1
2
(a
i
+b
i
).
(3) Calcular f(c
i
).
Se f

(c
i
) = 0, parar.
Se f

(c
i
) < 0, a
i+1
= c
i
, b
i+1
= b
i
,
sen ao a
i+1
= a
i
, b
i+1
= c
i
.
(4) Se b
i+1
a
i+1
< , parar,
sen ao i = i + 1 e voltar para (2).
Exerccio 8.3: Provar que todas as fun c oes convexas s ao unimodais.
Exerccio 8.4: Obter uma fun c ao c ubica real que seja unimodal mas n ao
convexa para 0 x 1.
8.2 Aproxima c oes polinomiais
Muitas vezes podemos assegurar um bom comportamento da fun c ao a
ser minimizada, ainda que apenas nas vizinhan cas do minimizador. Desta
maneira, temos garantia de uma boa aderencia entre a fun c ao e uma aprox-
ima c ao por polin omios. A ideia dos metodos que utilizam aproxima c oes poli-
nomiais e, a partir de k + 1 informa c oes sobre a fun c ao (valores da fun c ao,
das derivadas, etc), determinar um polin omio de ordem k, estimando-se o
minimizador da fun c ao a partir do minimizador do polin omio. Em geral,
trabalha-se iterativamente e a estrategia de redu c ao de incerteza utilizada
nos metodos diretos tambem e empregada como salvaguarda. As aprox-
ima c oes polinomiais geram um n umero de itera c oes inferior ao dos metodos
diretos, sendo porem de maior complexidade. No que se segue, vamos ap-
resentar quatro maneiras de efetuar aproxima c oes polinomiais: o metodo de
Newton, o metodo secante, o metodo DSC-Powell e o metodo da aproxima c ao
c ubica.
8.2. APROXIMAC

OES POLINOMIAIS 149
O metodo de Newton consiste em aproximar f em torno do ponto x
k
pela
par abola construda com as informa c oes f(x
k
), f

(x
k
) e f

(x
k
), ou seja,
f(x) q(x) = f(x
k
) +f

(x
k
)(x x
k
) +
f

(x
k
)
2
(x x
k
)
2
. (8.2.1)
Para se empregar o metodo de Newton e preciso que a fun c ao seja duas vezes
diferenci avel. Trata-se de um esquema iterativo localmente convergente,
portanto o ponto inicial x
0
deve estar sucientemente pr oximo da solu c ao
x

para a convergencia ser garantida.


Se f

(x
k
) > 0, a par abola q(x) e estritamente convexa e x
k+1
ser a um
minimizador global de q(x) se, e somente se,
q

(x
k+1
) = f

(x
k
) +f

(x
k
)(x
k+1
x
k
) = 0.
Desta forma, o novo ponto x
k+1
e dado por:
x
k+1
= x
k

(x
k
)
f

(x
k
)
. (8.2.2)
Observamos que (8.2.2) n ao depende de f(x
k
). Na verdade, este metodo e
equivalente ao metodo da tangente para resolver a equa c ao f

(x) = 0. Por
isso, quando f

(x
k
) < 0, o algoritmo pode convergir para um maximizador.
No metodo secante tambem aproxima-se f em torno de x
k
por uma par abola,
agora construda a partir de f(x
k
), f

(x
k
) e f

(x
k1
). Neste caso, o novo
ponto do esquema iterativo e dado por:
x
k+1
= x
k

(x
k
)(x
k
x
k1
)
f

(x
k
) f

(x
k1
)
. (8.2.3)
Comparando (8.2.2) com (8.2.3), vemos que a informa c ao de segunda ordem
do metodo de Newton e calculada em (8.2.3) usando-se diferen cas nitas.
Assim, para fun c oes cuja avalia c ao e trabalhosa, o esquema iterativo (8.2.3)
torna-se mais eciente. Analogamente ao metodo de Newton, o metodo
secante ter a convergencia assegurada quando o ponto inicial estiver sucien-
temente pr oximo da solu c ao x

, e pode convergir para um maximizador em


vez de um minimizador se n ao se usam salvaguardas adequadas.
O metodo DSC-Powell e uma combina c ao, sugerida por Box, Davies e Swann
[21], de um algoritmo de Davies, Swann e Campey (DSC) com um algoritmo
de Powell.
150 CHAPTER 8. MINIMIZAC

AO UNIDIMENSIONAL
Em ambos ajusta-se f por uma quadr atica conhecidos os valores da fun c ao
f em tres pontos.
Inicialmente o algoritmo cerca a solu c ao x

, fazendo ent ao uma interpola c ao


quadr atica com pontos igualmente espa cados. Esta etapa corresponde ao
metodo DSC. As itera c oes seguintes, devidas ao metodo de Powell, consis-
tem em prosseguir interpolando quadraticamente, mas com pontos desigual-
mente espa cados.
Algoritmo 8.2.1 - DSC-Powell.
Dados o ponto inicial x
0
, o tamanho do passo x e a precis ao ;
(1) Avaliar f(x
0
) e f(x
0
+ x)
Se f(x
0
+ x) > f(x
0
), x x.
(2) x
k+1
= x
k
+ x.
(3) Calcular f(x
k+1
).
(4) Se f(x
k+1
) f(x
k
), x = 2x, k k + 1, voltar para (2)
sen ao x
m
= x
k+1
, x
m1
= x
k
, x
m2
= x
k1
, x
x
2
e repetir (2) e (3) pela ultima vez, determinando x
m+1
= x
k+2
.
(5) Dentre os quatro pontos igualmente espa cados x
m+1
, x
m
, x
m1
, x
m2
,
descartar o mais distante do ponto com menor valor da fun c ao.
Renomear os valores restantes por x
a
, x
b
, x
c
,
onde x
b
e o ponto central, x
a
= x
b
x e x
c
= x
b
+ x.
(6) Fazer uma interpola c ao quadr atica para estimar x

:
x

= x
b
+
x(f(x
a
) f(x
c
))
2(f(x
a
) 2f(x
b
) +f(x
c
))
.
(7) Repetir:
redenir x
a
, x
b
, x
c
como x
a
, x

, x
b
ou x
b
, x

, x
c
,
calcular f(x
b
) e estimar x

por uma interpola c ao quadr atica


para pontos desigualmente espa cados:
x

=
1
2
(x
2
b
x
2
c
)f(x
a
) + (x
2
c
x
2
a
)f(x
b
) + (x
2
a
x
2
b
)f(x
c
)
(x
b
x
c
)f(x
a
) + (x
c
x
a
)f(x
b
) + (x
a
x
b
)f(x
c
)
,
ate que [x
c
x

[ < .
8.2. APROXIMAC

OES POLINOMIAIS 151
Mostra-se que a seq uencia gerada pelo Algoritmo 8.2.1 converge para o min-
imizador quando a fun c ao f e convexa. Para mais detalhes sobre o metodo
DSC-Powell, ver Himmelblau [120].
Na aproxima c ao c ubica s ao necess arias quatro informa c oes para construir um
polin omio de grau tres para aproximar a fun c ao f. A escolha mais cl assica
envolve o conhecimento de f(x
k
), f

(x
k
), f(x
k1
) e f

(x
k1
) e resulta no
seguinte minimizador para a c ubica (Luenberger (1984), p.206):
x
k+1
= x
k

(x
k
x
k1
)[f(x
k
) +
2

1
]
f(x
k
) f

(x
k1
) + 2
2
, (8.2.4)
onde
1
= f

(x
k1
) +f

(x
k
) 3
f(x
k
) f(x
k1
)
x
k
x
k1
e
2
=
_

2
1
f

(x
k1
)f

(x
k
) .
Se a fun c ao e unimodal no intervalo [a, b], f

(a) < 0 e f

(b) > 0, a aprox-


ima c ao c ubica pode ser combinada com tecnicas de redu c ao de incerteza
para obter um algoritmo globalmente convergente.
Esse tipo de combina c ao e computacionalmente necess aria em qualquer al-
goritmo baseado em aproxima c oes polinomiais. De fato, com salvaguardas
adequadas, e possvel garantir uma efetiva redu c ao do intervalo de incerteza,
evitando-se passos muito pequenos quando se est a longe da solu c ao. Assim, a
interpola c ao polinomial pode se combinar com o metodo da bisse c ao, quando
as derivadas s ao disponveis, ou com o metodo da se c ao aurea, quando se
conhecem apenas os valores da fun c ao.
Exerccio 8.5: Mostrar que no metodo secante a convergencia local e su-
perlinear, mostrando que existe a > 0 tal que
lim
k
[x
k+1
x

[
[x
k
x

[
r
a , r =
1 +

5
2
1.618 .
Exerccio 8.6: Escrever um algoritmo de interpola c ao c ubica com salva-
guardas que garantam uma redu c ao efetiva do intervalo de incerteza em cada
itera c ao.
152 CHAPTER 8. MINIMIZAC

AO UNIDIMENSIONAL
8.3 Tecnicas de minimiza cao global
Quase sempre, o objetivo do otimizador diante de um determinado prob-
lema, e obter um minimizador global. No entanto, a maioria dos algoritmos
pr aticos e ecientes n ao possuem convergencia garantida para esse tipo de
verdadeiros minimizadores. Na maioria dos casos, e possvel provar con-
vergencia, em algum sentido, para pontos estacion arios que, muito provavel-
mente, s ao minimizadores locais. Freq uentemente, pelas pr oprias carac-
tersticas do problema, os pontos estacion arios assim encontrados s ao min-
imizadores globais, o que possibilita a solu c ao efetiva de muitos problemas
pr aticos de otimiza c ao.
No entanto, existem problemas com innidade de minimizadores locais, cuja
resolu c ao por algoritmos como os mencionados acima e extremamente difcil.
Isso motiva o desenvolvimento de metodos globais, isto e, algoritmos com
convergencia garantida para um minimizador global do problema. Infeliz-
mente, os metodos globais assim desenvolvidos perdem muito de sua ec acia
quando aplicados a problemas de grande porte. Freq uentemente, o tempo e a
mem oria requeridos por uma itera c ao s ao proibitivos ate para computadores
avan cados.
A situa c ao e diferente quando o n umero de vari aveis e pequeno, especial-
mente, quando a fun c ao e de uma vari avel s o, como as que estudamos neste
captulo. Assim, e possvel que tecnicas globais unidimensionais, combi-
nadas com tecnicas locais baseadas em buscas lineares ou ate regi oes de
conan ca consigam aumentar muito a potencialidade global destas ultimas.
Neste captulo, vamos destacar as tecnicas de minimiza c ao global utilizando
envelopes convexos e an alise intervalar [146], [145], [114].
A obten c ao de um minimizador global de f : [a, b] IR atraves de envelopes
convexos baseia-se na parti c ao do intervalo [a, b] e, conseq uentemente, do
problema original, em subproblemas. A seguir, utilizando-se uma subesti-
mativa convexa para a fun c ao objetivo no subintervalo, determina-se facil-
mente um limitante inferior para o minimizador do subproblema atraves do
minimizador do envelope convexo. Acrescentando-se uma estrategia para
eliminar subintervalos, com base nos valores mnimos encontrados para
a fun c ao, mostra-se que o ponto correspondente ao menor dos limitantes
inferiores determinados para a fun c ao converge para a solu c ao global do
problema original.
Com rela c ao ` a determina c ao dos envelopes convexos, o fundamental e en-
contrar os pontos em que a representa c ao da subestimativa convexa muda
de forma. Quando a fun c ao tem trechos convexos, muitas vezes o envelope
convexo coincide com a fun c ao original num subintervalo. Pode ainda ser
8.3. T

ECNICAS DE MINIMIZAC

AO GLOBAL 153
uma reta unindo um ponto ao trecho adjacente, convertendo-se novamente
na fun c ao num trecho seguinte, e assim por diante. A determina c ao de
quantas representa c oes diferentes s ao necess arias depende tanto dos taman-
hos dos subintervalos quanto do comportamento da pr opria fun c ao. Para se
conhecer os pontos exatos em que o envelope convexo muda de representa c ao
(de uma reta para a curva da fun c ao ou vice-versa), basta fazer um ajuste
entre as declividades da curva e da reta. Em outras palavras, se a e o ponto
inferior do intervalo, queremos encontrar x [a, b] tal que
f(x)f(a)
xa
= f

(x),
que e equivalente a
f(x) f(a) (x a)f

(x) = 0. (8.3.1)
Dentre as diversas estrategias para se resolver (8.3.1), o metodo de Newton
implementado com salvaguardas geralmente funciona bem e tem o seguinte
esquema iterativo:
x
k+1
= x
k
+
_
f(x
k
) f(a)
x
k
a
f

(x
k
)
_
_
f

(x
k
)

1
. (8.3.2)
A ideia b asica da an alise intervalar aplicada ` a minimiza c ao global e o re-
namento dos intervalos contendo o valor extremo, descartando-se as regi oes
em que o minimizador global n ao pode estar. Assim, na determina c ao do
minimizador global de f : [a, b] IR, suponhamos que [a, b] foi subdividido
em [a, c] e [c, b]. Suponhamos tambem que conhecemos [u, v] contendo a
imagem do intervalo [c, b] pela f, isto e f([c, b]) [u, v] e conhecemos [w, z]
contendo f(x
1
), com x
1
[a, c]. Se z < u, ent ao todo o intervalo [c, b] pode
ser descartado, j a que n ao existe x [c, b] tal que o valor f(x) seja menor
que f(x
1
) z. Assim, o minimizador de f em [a, b] est a em [a, c] e n ao em
[c, b]. Portanto, com este tipo de teste pode-se excluir regi oes que segura-
mente n ao contem o minimizador global procurado.
Exerccio 8.7: Aplicar as tecnicas de envelopes convexos e an alise inter-
valar para obter o minimizador global de
(a) f(x) = e
x
+ sen (x) +x
2
, x [1, 2].
(b) f(x) = x(1 +x) cos (x) , x [2, 2].
154 CHAPTER 8. MINIMIZAC

AO UNIDIMENSIONAL
Chapter 9
Restri c oes lineares
Vamos considerar o problema de otimiza c ao em que a regi ao factvel e um
politopo em IR
n
, ou seja, um conjunto denido por equa c oes e inequa c oes
lineares. A minimiza c ao em caixas e um caso particular desse problema.
No captulo 7, aplicamos o algoritmo geral de regi oes de conan ca ao caso
l x u, dando um sentido (o do subproblema f acil) ` a minimiza c ao
aproximada do modelo quadr atico. Aqui, em princpio, podemos proceder
da mesma maneira, com a diculdade de que o problema f acil n ao e t ao
f acil como no caso das caixas. Com efeito, quando o conjunto factvel e um
politopo, o ponto x
Q
k
do Algoritmo 7.3.1 e a proje c ao de x
k
g(x
k
)/M
k
na in-
tersec c ao desse conjunto com a caixa de conan ca. Embora haja raz oes para
supor que essa proje c ao n ao e difcil de se calcular, certamente e bem mais
complicada que quando a regi ao e uma caixa ndimensional. Tambem, neste
caso, e mais conitante a decis ao sobre o algoritmo a ser usado para deter-
minar o ponto-tentativa x. Portanto, embora as quest oes te oricas relativas ` a
aplica c ao de regi oes de conan ca a minimiza c ao com restri c oes lineares este-
jam essencialmente resolvidas em [142], n ao existem ainda implementa c oes
pr aticas amplamente reconhecidas. Ver, tambem [89] e [40].
Os metodos mais tradicionais para otimiza c ao em politopos est ao basea-
dos na estrategia de restri c oes ativas. A ideia e similar ` a usada no captulo
4 para minimizar quadr aticas em caixas. A regi ao e dividida em faces, de
maneira que, dentro de cada uma delas, o problema e, essencialmente, ir-
restrito. Uma face pode ser abandonada apenas quando o trabalho sobre
ela se revela improdutivo. Ver [75], [92], [94], [99], [154], [155], [172], [173],
[174] e o artigo pioneiro de Rosen [178].
Os problemas de programa c ao linear e programa c ao quadr atica s ao ca-
sos particulares do tratado neste captulo. No primeiro, a fun c ao objetivo
155
156 CHAPTER 9. RESTRIC

OES LINEARES
e linear (f(x) = c
T
x) e, no segundo, e uma quadr atica. O metodo mais
usado para programa c ao linear e o Simplex [46] que e, de fato, um al-
goritmo de restri c oes ativas. O programa MINOS para minimiza c ao com
restri c oes ([154], [155]) e, quando aplicado a problemas lineares, uma das
implementa c oes mais ecientes do metodo Simplex para grande porte. O
conte udo deste captulo se aplica, em conseq uencia a programa c ao linear e
quadr atica, mas a estrutura especial destes problemas, e o tratamento da
degenera c ao primal justica o desenvolvimento de textos especcos. Ver
[46], [9], etc.
A programa c ao linear e outras areas da otimiza c ao foram sacudidas, a
partir de 1984, com o desenvolvimento dos metodos de pontos interiores.
Ver [103]. Algumas indica c oes sobre a aplica c ao desses metodos ` a mini-
miza c ao de fun c oes gerais com restri c oes lineares ser ao dadas neste captulo.
9.1 Igualdades
O problema geral deste captulo e:
Minimizar f(x)
sujeita a x
(9.1.1)
onde f C
1
() e = x IR
n
[ A
1
x = b
1
, A
2
x b
2
, com A
1
IR
m
1
n
e
A
2
IR
m
2
n
. O conjunto denido pelas restri c oes lineares de igualdade
e desigualdade e denominado politopo.
Um politopo geral sempre pode ser levado ` a forma x IR
n
[ Ax =
b , x 0 ou ` a forma x IR
n
[ Ax = b , l x u, mediante a introdu c ao
de vari aveis de folga. Alguns algoritmos trabalham exclusivamente com
essa formula c ao, chamada padr ao.
Exerccio 9.1: Converter = x IR
n
[ A
1
x = b
1
, A
2
x b
2
para o
formato y IR
N
[ Ay = b , y 0.
Na deni c ao de , estamos incluindo as possibilidades m
1
= 0 e m
2
= 0.
Se ambas dimens oes s ao nulas, o problema e irrestrito. Se apenas m
2
= 0
temos o problema de minimiza c ao com restri c oes de igualdade:
Minimizar f(x)
sujeita a Ax = b .
(9.1.2)
9.1. IGUALDADES 157
Suponhamos que a regi ao factvel de (9.1.2) e n ao vazia e seja x IR
n
tal que Ax = b. Ent ao, todos os pontos da que vericam Ax = b satisfazem
x = x +Zz, onde Z IR
n(nmp)
e uma matriz cujas colunas formam uma
base para o n ucleo da matriz A e m
p
e o posto de A. Assim, (9.1.2) pode
ser reescrito como um problema irrestrito num espa co de dimens ao menor:
Minimizar (z) f(x +Zz)
z IR
nmp
.
(9.1.3)
Exerccio 9.2: Mostrar que
(z) = Z
T
f(x +Zz)
e

2
(z) = Z
T

2
f(x +Zz)Z.
O vetor e denominado gradiente reduzido e a matriz
2
, Hessiana re-
duzida.
Uma vez encontrado x tal que Ax = b e Z tal que (Z) = ^(A), a
resolu c ao de (9.1.2) pode ser tentada usando um metodo direcional (Newton,
quase-Newton) ou um metodo de regi oes de conan ca para minimiza c ao sem
restri c oes. Ver [74].
Para a viabilidade de metodos baseados em (9.1.3) para problemas de
grande porte e fundamental que a matriz Z seja esparsa. Ainda mais, se
a inten c ao e implementar o metodo de Newton, tambem e necess ario que
Z
T

2
f(x)Z o seja. Se Z e grande e densa, (9.1.3) n ao pode ser utilizado.
Nesse caso, observamos que, se B e uma matriz denida positiva (melhor,
esparsa e talvez diagonal), a solu c ao de
Minimizar
1
2
d
T
Bd +g(x)
T
d sujeita a Ad = 0 (9.1.4)
corresponde a uma solu c ao (d, ) do sistema linear
Bd +g(x) +A
T
= 0, Ad = 0. (9.1.5)
Portanto, a dire c ao d computada por (9.1.5) e uma dire c ao de descida para
f, pertencente ao n ucleo de A. Se B = I, d = d() se aproxima de uma
dire c ao de m axima descida no n ucleo, quando tende a innito. Agora,
(9.1.5) pode ser resolvido usando apenas a esparsidade de A ou, talvez, um
metodo iterativo linear. Ideias an alogas ` as invocadas no captulo 6 podem
158 CHAPTER 9. RESTRIC

OES LINEARES
ser adaptadas para provar que um algoritmo baseado em dire c oes d
k
cal-
culadas por (9.1.5), com backtracking, e globalmente convergente a um
ponto estacion ario de (9.1.2). Uma vantagem adicional de usar iterativa-
mente (9.1.5) e que os sucessivos
k
s ao estimativas dos multiplicadores de
Lagrange na solu c ao. A import ancia desse fato emergir a no tratamento de
restri c oes de desigualdade.
9.2 Estrategia de restri c oes ativas
Para facilitar a exposi c ao, consideraremos o problema geral de minimiza c ao
em politopos apenas na forma
Minimizar f(x)
sujeita a Ax b ,
(9.2.1)
onde A IR
mn
, A
T
= (a
1
. . . a
m
) , a
i
IR
n
, i = 1, . . . , m. A transposi c ao
das ideias desta se c ao para o formato geral (9.1.1) e rotineira, e ser a deixada
como exerccio para o leitor. Como antes, escrevemos = x IR
n
[ Ax
b. As deni c oes a seguir s ao paralelas ` as dadas quando introduzimos algo-
ritmos para minimizar quadr aticas em caixas.
Deni c ao 9.2.1
Dado I 1, 2, . . . , m, chamamos de face relativa ao conjunto I ao
conjunto
F
I
= x [ a
T
i
x = b
i
se i I e a
T
i
x > b
i
se i , I .
Como sempre, chamamos F
I
ao fecho de F
I
.
As restri c oes que s ao satisfeitas por x na igualdade, isto e, tais que
a
T
i
x = b
i
, i I, s ao chamadas ativas em x. As outras s ao denominadas
inativas .
Exerccio 9.3: Provar que
(a) =
_
IP
F
I
, onde T e o conjunto das partes de 1, 2, . . . , m .
(b) Se I
1
,= I
2
, F
I
1
F
I
2
= .
Vamos denir agora um algoritmo conceitual que implementa a es-
trategia de restri c oes ativas. Nesse algoritmo, trabalhamos com super-
itera c oes, que permitem passar diretamente de um ponto qualquer a um
9.2. ESTRAT

EGIA DE RESTRIC

OES ATIVAS 159
minimizador global irrestrito. Naturalmente, a existencia dessas super-
itera c oes na pr atica est a restrita a problemas simples, como os lineares ou
quadr aticos. Chamamos o ao conjunto de minimizadores globais de (9.2.1)
e partimos de um ponto inicial arbitr ario e factvel.
Algoritmo 9.2.2 - Estrategia de restri c oes ativas.
Dado x
k
, x
k
F
I
, x
k
, o ,
se x
k
e minimizador de f em F
I
,
ent ao
(1) x
k+1
, F
I
e f(x
k+1
) < f(x
k
).
Sen ao
(2) x
k+1
F
I
e x
k+1
e minimizador de f em F
I
, ou
(3) x
k+1
[F
I
F
I
] (a fronteira de F
I
) e f(x
k+1
) < f(x
k
), ou
(4) f e ilimitada inferiormente em F
I
e o algoritmo p ara.
O leitor familiarizado com o Simplex poder a reconhecer que esse metodo
est a no escopo do Algoritmo 9.2.2. As faces visitadas nesse caso s ao vertices,
formadas por um unico ponto. Portanto x
k
sempre e minimizador de f em
F
I
, o fecho de F
I
e a pr opria F
I
e o ponto seguinte e um ponto diferente
onde a fun c ao objetivo diminui. Para interpretar corretamente o caso em
que o Simplex detecta que o problema e ilimitado, a partir do vertice x
k
,
pensemos na introdu c ao de uma itera c ao ctcia x
k+1
factvel e situada
na semi-reta ao longo da qual f tende a . Essa ultima itera c ao est a
numa aresta F
I
na qual a fun c ao e ilimitada inferiormente. A situa c ao,
portanto, corresponde ao Passo 4 do Algoritmo 9.2.2.
No seguinte teorema, provamos que a estrategia de restri c oes ativas e
sempre bem sucedida. A diculdade estar a, em conseq uencia, em sua im-
plementa c ao.
Teorema 9.2.3
Em um n umero nito de itera c oes, o metodo das restri c oes ativas en-
contra a solu c ao de (9.2.1) ou detecta que o problema n ao tem solu c ao.
Prova: Suponhamos que o Passo 4 do Algoritmo 9.2.2 n ao acontece em
nenhuma itera c ao da seq uencia x
k
. Quando uma face F
I
e abandonada
no Passo 1, ent ao, como x
k
e minimizador global para x F
I
e f(x
j
) e
mon otona decrescente, temos que x
j
/ F
I
para todo j > k. Como o n umero
de faces e nito, a partir de certo k
0
o Passo 1 n ao e mais executado. Pela
nitude do n umero de restri c oes, o Passo 3 tambem pode ser executado
160 CHAPTER 9. RESTRIC

OES LINEARES
apenas um n umero nito de vezes se k k
0
. Portanto, a partir de certo
k
1
k
0
, apenas o Passo 2 e possvel. Isso implica que x
k
1
+1
e minimizador
global na sua face. Como o Passo 1 n ao e mais possvel, resulta que x
k
1
+1
deve ser minimizador global do problema. QED
Apesar do Algoritmo 9.2.2 ter convergencia nita, o Passo 2 e, quase
sempre, impossvel de ser executado em um n umero nito de etapas. Assim,
uma itera c ao do Algoritmo 9.2.2 e, na verdade, uma super-itera c ao, pois
pode embutir um procedimento innito.
Suponhamos que x
k
F
I
n ao e minimizador global de f em F
I
. Para
obter x
k+1
pelo Passo 2 ou pelo Passo 3, denimos 1(F
I
) = x IR
n
[ a
T
i
x =
b
i
, i I e consideramos o problema
Minimizar f(x)
sujeita a x 1(F
I
)
ou, equivalentemente,
Minimizar f(x)
sujeita a a
T
i
x = b
i
, i I .
(9.2.2)
Este problema e do tipo (9.1.2). Para resolve-lo aplicamos um metodo
iterativo, come cando com x
0
k
= x
k
, e gerando uma seq uencia x
1
k
, x
2
k
, . . . de
maneira que, antes de parar, x
j
k
1(F
I
) e f(x
j+1
k
) < f(x
j
k
) para todo j .
Suponhamos que, antes da parada, aparece j tal que x
j+1
k
/ . Neste caso,
chamamos d
j
k
= x
j+1
k
x
j
k
e t
j
o m aximo t > 0 tal que [x
j
k
, x
j
k
+ td
j
k
] .
Uma suposi c ao sobre o processo para (9.2.2) que garante que o Passo 3 do
Algoritmo 9.2.2 pode ser completado e que
f(x
j
k
+t
j
d
j
k
) < f(x
j
k
).
Nessa situa c ao, chamamos x
k+1
= x
j
k
+t
j
d
j
k
. O metodo iterativo aplicado a
(9.2.2) ser a interrompido, no melhor caso, quando x
j
k
seja minimizador global
de f em F
I
, mas e difcil que consigamos essa propriedade em tempo nito.
(Uma exce c ao e quando f e uma quadr atica estritamente convexa.) Por-
tanto, o Algoritmo 9.2.2 n ao poder a ser rodado em estado puro, e a condi c ao
se x
k
e minimizador de f em F
I
dever a ser substituda, na pr atica, por se
x
k
e minimizador aproximado de f em F
I
. A decis ao sobre o que se con-
sidera minimizador aproximado dene diferentes metodos implement aveis
de restri c oes ativas.
9.3. SAINDO DA FACE 161
9.3 Saindo da face
Nesta se c ao, descrevemos uma das possveis maneiras de viabilizar o
Passo 2 do Algoritmo de restri c oes ativas. Mais precisamente, vamos supor
que x
j
k
e uma das itera c oes do algoritmo interno usado dentro de F
I
, que
devemos decidir se x
j
k
j a e minimizador aproximado nessa face, e, em caso
armativo, que precisamos mostrar como conseguir x
k+1
/ F
i
e f(x
k+1
) <
f(x
j
k
). Para simplicar a nota c ao, escreveremos x
k
em vez de x
j
k
.
Vamos supor, a princpio, que os gradientes das restri c oes que denem a
face F
I
s ao linearmente independentes. Sem perda de generalidade, supon-
hamos que I = 1, . . . , ,

A
T
= (a
1
, . . . , a

). Portanto,

A tem posto
e admite uma submatriz B IR

n ao singular. Por simplicidade, vamos


supor que

A = ( B N ). Consideramos a mudan ca de vari aveis
y
1
= a
T
1
x
.
.
.
y

= a
T

x
y
+1
= x
+1
.
.
.
y
n
= x
n
ou seja,
y =
_
B N
0 I
_
x =

Bx .

E f acil ver que



B e n ao-singular. Ent ao, temos x =

B
1
y e podemos
reformular o problema (9.2.1) da seguinte maneira
Minimizar

f(y) f(

B
1
y)
sujeita a
y
i
b
i
, i = 1, . . . ,
a
T
i

B
1
y b
i
, i = + 1, . . . , n .
(9.3.1)
Seja y =

Bx
k
. Como x
k
F
I
, temos que y
i
= b
i
se i I e a
T
i

B
1
y > b
i
se i , I. Portanto, as dire c oes factveis de descida, a partir de y, para
(9.3.1) s ao as mesmas que as do problema onde as restri c oes inativas s ao
eliminadas:
Minimizar

f(y)
sujeita a y
i
b
i
, i = 1, . . . , .
(9.3.2)
162 CHAPTER 9. RESTRIC

OES LINEARES
Agora, como zemos no captulo 4 com as quadr aticas em caixas, pode-
mos denir aqui a dire c ao de Cauchy

f( y) por
[

f( y)]
i
= 0 se y
i
= b
i
e [

f( y)]
i
0 ;
[

f( y)]
i
= [

f( y)]
i
nos outros casos.
O ponto y ser a estacion ario de primeira ordem de (9.2.1), (9.2.2) e (9.3.1)
se, e somente se,

f( y) = 0.
Se

f( y) ,= 0 esse vetor e uma dire c ao factvel e de descida a partir de y.


Escrevendo

f( y) = (

C

f( y)
T
,

I

f( y)
T
)
T
,
com

C

f( y) IR

I

f( y) IR
n
, teremos tambem que x
k
e ponto
estacion ario de (9.1.2) se, e somente se,

I

f( y) IR
n
= 0. Portanto,
e natural que a decis ao sobre abandonar a face ou n ao dependa de uma
avalia c ao do quociente
quoc =
|

I

f( y)|
|

f( y)|
.
Claramente, quoc [0, 1] e a decis ao de abandono ser a obrigat oria quando
quoc = 0, j a que nesse caso nada mais podemos esperar de um algoritmo
que use apenas derivadas primeiras para minimizar (9.1.2). Por outro lado,
se quoc = 1 deveremos car dentro da face, pois todo o potencial de descida
se encontra dentro dela. Assim, nada mais sensato que decidir pela saida
(Passo 2) quando quoc TOL onde TOL e uma toler ancia entre 0 e 1. Toda
analogia com o algoritmo dado no captulo 4 para minimizar quadr aticas em
caixas e proposital. Uma vez decidido o abandono da face, temos bastante
liberdade para escolher a dire c ao de sada, j a que, em princpio, qualquer
dire c ao no espa co y que seja factvel, de descida, e tenha alguma das
primeiras coordenadas maiores que 0, servir a para esse m. Uma candidata
natural e

d =

f( y). Assim, tomando t > 0 sucientemente pequeno,


teremos que x
k
+t

B
1

d ( F
I
) e f(x
k
+t

B
1

d) < f(x
k
).
A pressa em sair da face, provocada, por exemplo, por um valor de TOL
muito pr oximo de 1, pode ocasionar um fen omeno chamado de ziguezague.
Uma face pode ser abandonada e retomada um n umero innito de vezes,
impedindo a convergencia do metodo. Existem muitos procedimentos anti-
ziguezague, introduzidos para driblar t ao desagrad avel comportamento.
Ver [69]. Na minimiza c ao de quadr aticas em caixas, por exemplo, vimos que
a sada pelo gradiente chopado elimina toda possibilidade de n ao-convergencia.
9.4. REDUC

AO A CAIXAS 163
Quando os gradientes das restri c oes que denem I s ao linearmente de-
pendentes, dizemos que estamos em um ponto degenerado. Grande parte da
teoria do metodo Simplex em programa c ao linear (ver, por exemplo [34]) est a
destinada a analisar esse caso. Felizmente, se a fun c ao objetivo e n ao-linear,
podemos usar um artifcio que nos permite resolver a situa c ao evocando o
caso linear. Com efeito, suponhamos que, em x
k
F
I
, temos I = 1, . . . , e
a
1
, . . . , a

dependentes. Consideramos o problema auxiliar


Minimizar f(x
k
)
T
d, sujeita a a
T
i
d 0, i I. (9.3.3)
Se aplicamos o metodo Simplex para resolver (9.3.3) com o ponto inicial 0,
sabemos que esse metodo detectar a, em tempo nito, que 0 e solu c ao de
(9.3.3), ou encontrar a d factvel tal que f(x
k
)
T
d < 0, usando procedimen-
tos contra a ciclagem, se for necess ario. Tal dire c ao e uma dire c ao factvel e
de descida para (9.2.1), que nos permitir a continuar o processo.
Exerccio 9.5: Justicar cuidadosamente as arma c oes no texto relativas
` a mudan ca de vari aveis, em particular, provar a n ao singularidade de

B.
Exerccio 9.6: Analisar a estrategia de escape denida pelos metodos do
tipo gradiente projetado para restri c oes lineares (ver, por exemplo, [129],
p.330).
Exerccio 9.7: Justicar a estrategia de escape adotada pelo metodo Sim-
plex.
Exerccio 9.8: Analisar o comportamento do metodo Simplex para pontos
n ao regulares.
Exerccio 9.9: Refazer a an alise das se c oes 9.2 e 9.3 com outras formas de
descrever o politopo .
9.4 Redu cao a caixas
O leitor incomodado com as fatora c oes, a convergencia duvidosa e as perigosas
degenera c oes da estrategia das restri c oes ativas, se sentir a confortado pelos
resultados desta se c ao. Provaremos que, quando f e convexa e o politopo
e limitado, o problema (9.1.1) pode ser reduzido a um problema de mini-
miza c ao em caixas, cuja teoria, como vimos, e bastante s olida e adapt avel
164 CHAPTER 9. RESTRIC

OES LINEARES
a situa c oes de grande porte. Aqui, mediante a introdu c ao de vari aveis de
folga, se necess ario, (9.1.1) ter a sempre a forma padr ao:
Minimizar f(x)
sujeita a Ax = b , x 0 ,
(9.4.1)
onde f C
2
(IR
n
) e convexa e = x IR
n
[ Ax = b , x 0.
As condi c oes de otimalidade de primeira ordem de (9.4.1) s ao
f(x) +A
T
y z = 0
Ax b = 0
x
T
z = 0
x 0 , z 0 .
(9.4.2)
Denimos, para | | = | |
2
,
(x, y, z) =
1
2
_
|f(x) +A
T
y z|
2
+|Ax b|
2
+ (x
T
z)
2
_
,
e consideramos o problema
Minimizar (x, y, z)
sujeita a x 0 , z 0 .
(9.4.3)
`
A primeira vista, ao resolvermos (9.4.3), esperamos apenas encontrar
pontos estacion arios, n ao necessariamente minimizadores globais, j a que
(x, y, z) n ao e uma fun c ao convexa. No entanto, o resultado a seguir asse-
gura que todo ponto estacion ario de (9.4.3) e um minimizador global para
este problema satisfazendo (9.4.2) e, portanto, resolver (9.4.3) e equivalente
a resolver (9.4.1). Ver [83], [84] e [85] para extens oes e varia c oes deste teo-
rema.
Teorema 9.4.1
Se f C
2
(IR
n
) e convexa e o politopo e n ao vazio e limitado, ent ao
(9.4.3) admite pelo menos um ponto estacion ario (KKT) e todo ponto esta-
cion ario (x

, y

, z

) de (9.4.3) e um minimizador global com (x

, y

, z

) =
0.
Prova: A primeira parte e imediata. Como e limitado e f e contnua,
existe um minimizador global para o problema (9.4.1). Este minimizador
tem que satisfazer (9.4.2) e, portanto, e um minimizador global de (9.4.3).
9.4. REDUC

AO A CAIXAS 165
Vamos supor que (x, y, z) seja um ponto estacion ario do problema (9.4.3).
Ent ao existem , IR
n
tais que
A
T
(Ax b) +
2
f(x)(f(x) +A
T
y z) + (x
T
z)z = 0 , (9.4.4)
A(f(x) +A
T
y z) = 0 , (9.4.5)
(f(x) +A
T
y z) + (x
T
z)x = 0 , (9.4.6)

T
x = 0 , (9.4.7)

T
z = 0 , (9.4.8)
x 0 , z 0 , 0 , 0 . (9.4.9)
Por (9.4.5) e (9.4.6) temos que
(x
T
z)x ^(A) , (9.4.10)
onde ^(A) e o n ucleo da matriz A.
Portanto, pre-multiplicando (9.4.4) por (x
T
z)x e usando (9.4.6),
obtemos
((x
T
z)x)
T

2
f(x)((x
T
z)x)+((x
T
z)x)
T
((x
T
z)z) = 0 . (9.4.11)
Como
2
f e semi-denida positiva, (9.4.11) implica em
((x
T
z)x )
T
((x
T
z)z ) 0 .
Logo, por (9.4.7) e (9.4.8) segue que
(x
T
z)
3
+
T
0 . (9.4.12)
Assim, por (9.4.9) temos
x
T
z = 0 (9.4.13)
e

T
= 0 . (9.4.14)
Por (9.4.6) e (9.4.13),
(f(x) +A
T
y z) = 0 . (9.4.15)
Mas, por (9.4.5), (f(x) + A
T
y z) ^(A). Portanto, como e
limitado, a equa c ao (9.4.15) implica necessariamente em
(f(x) +A
T
y z) = 0 . (9.4.16)
166 CHAPTER 9. RESTRIC

OES LINEARES
Ent ao, por (9.4.4), (9.4.13) e (9.4.16) temos
A
T
(Ax b) = 0 . (9.4.17)
Agora, (9.4.17) e (9.4.7) s ao as condi c oes de otimalidade (necess arias e
sucientes) do problema quadr atico convexo
Minimizar
1
2
|Ax b|
2
sujeita a x 0 .
(9.4.18)
Como e n ao vazio, temos que Ax = b. Esta igualdade, juntamente
com (9.4.13) e (9.4.16) completam a prova. QED
O problema
Minimizar
1
2
_
|f(x) +A
T
y z|
2
+|Ax b|
2
+x
T
z
_
sujeita a x 0 , z 0
(9.4.19)
e obviamente equivalente a (9.4.3). No entanto, (9.4.19) pode admitir pontos
estacion arios que n ao s ao minimizadores globais. De fato, basta consider-
armos o problema de minimizar x sujeito a 0 x 2 ou, no formato
(9.4.1), minimizar x
1
sujeito a x
1
+x
2
= 2, x
1
0 , x
2
0. O problema da
forma (9.4.19) associado a este problema trivial admite o ponto estacion ario
x = (2, 0)
T
e z = (0, 0)
T
, que naturalmente n ao e um minimizador global.
9.5 Pontos interiores
A revolu c ao dos metodos de pontos interiores come cou em 1984 com o
lan camento do metodo de Karmarkar [124]. Por primeira vez na hist oria
era anunciado um algoritmo eciente na pr atica e, ao mesmo tempo, poli-
nomial, para o problema de programa c ao linear. Desde ent ao, foram es-
critos centenas de artigos introduzindo e analisando algoritmos desse tipo.
O survey [103] e, provavelmente, a melhor referencia disponvel para o
estado da arte ate 1992. Nesta se c ao nos limitaremos a introduzir a ideia
ane-scaling ([58], [3], [193], [5]), uma das mais fecundas geradoras de al-
goritmos de pontos interiores, no contexto da minimiza c ao de fun c oes gerais
com restri c oes lineares.
A ideia dos metodos de pontos interiores e provocativamente contra-
dit oria com o metodo Simplex, e com as estrategias de restri c oes ativas
em geral. Mesmo sabendo que, com alta probabilidade, a solu c ao est a na
9.5. PONTOS INTERIORES 167
fronteira (com certeza em um vertice no caso da programa c ao linear), esses
algoritmos geram iterandos que permanecem sempre no interior do conjunto.
Em vez de apostar na face em que provavelmente se encontra o minimizador,
de acordo com a informa c ao disponvel, os metodos de pontos interiores evi-
tam o fracasso de repetidos abandonos seguindo caminhos curvos na regi ao
onde nenhuma restri c ao e ativa.
A t atica ane-scaling se baseia em subproblemas onde a regi ao e
substituida por um elips oide interno, que nos permitiremos identicar com
uma regi ao de conan ca. Primeiro, acrescentemos vari aveis de folga em
(9.1.1), de maneira que nosso problema e
Minimizar f(x) sujeita a Ax z = b, z 0. (9.5.1)
O ponto inicial x
0
, assim como todos os iterandos x
k
, ser a interior a ,
ou seja, Ax
k
> b (z
k
> 0) para todo k.
O maior elips oide no espa co z, centrado em z
k
, contido no ortante pos-
itivo e com eixos paralelos aos eixos coordenados e dado por
m

i=1
(z
i
[z
k
]
i
)
2
[z
k
]
2
i
1, (9.5.2)
ou seja
(z z
k
)
T
Z
2
k
(z z
k
) 1, (9.5.3)
onde Z
k
e a matriz diagonal cujas entradas s ao [z
k
]
i
, i = 1, . . . , m. Portanto,
e bastante natural considerar o subproblema
Minimizar

f(x) sujeita a Ax z = b, (z z
k
)
T
Z
2
k
(z z
k
) 1. (9.5.4)
onde

f(x) e uma aproxima c ao de f(x), construda com a informa c ao disponvel
em x
k
. Por exemplo,

f(x) = f(x), (9.5.5)

f(x) = f(x
k
) +f(x
k
)(x x
k
) +
1
2
(x x
k
)
T
B
k
(x x
k
) (9.5.6)
ou

f(x) = f(x
k
) +f(x
k
)(x x
k
). (9.5.7)
Em todos os casos,

f(x
k
) = f(x
k
). Desenvolvendo (9.5.4), o subprob-
lema toma a forma
Minimizar

f(x) sujeita a (Ax b z
k
)
T
Z
2
k
(Ax b z
k
) 1, (9.5.8)
168 CHAPTER 9. RESTRIC

OES LINEARES
ou, usando que z
k
= Ax
k
b,
Minimizar

f(x) sujeita a (x x
k
)
T
A
T
Z
2
k
A(x x
k
) 1. (9.5.9)
Suponhamos que o posto de A e n. O subproblema (9.5.9) pode ser resolvido
com apenas uma fatora c ao de Cholesky no caso (9.5.7). Se

f(x) e quadr atica,
pode ser reduzido, pela mudan ca de vari aveis y = [A
T
Z
2
k
A]
1
2
(x x
k
) a
minimizar quadr aticas em bolas, problema que estudamos no captulo 4 e
relembramos no captulo 7 . Solu c oes aproximadas de (9.5.9) no caso (9.5.5)
podem ser obtidas usando os algoritmos de minimiza c ao em bolas descritos
em [142].
Chamamos

d
k
= x x
k
a uma solu c ao aproximada de (9.5.9). A aprox-
ima c ao deve ser, pelo menos no sentido de que

f(x
k
+

d
k
) <

f(x
k
) sempre que f(x
k
) ,= 0.
Se

f e convexa ou quadr atica, isto implica que f(x
k
)
T

d
k
< 0. Nesse caso,
denimos

d
k
=
k

d
k
onde
k
e o maior tal que [x
k
, x
k
+

d
k
] e
d
k
=

d
k
onde (0, 1) e muito pr oximo de 1, digamos 0.95, de maneira que x
k
+d
k
e interior mas est a pr oximo da fronteira. Finalmente, x
k+1
= x
k
+ td
k
,
com t [0, 1], e obtido por um processo de backtracking, ate satisfazer uma
condi c ao de tipo Armijo.
Quando

f n ao e convexa nem quadr atica, e mais coerente, no caso de
f(x
k
+d
k
) n ao ser sucientemente menor que f(x
k
), denir sucessivos sub-
problemas mediante diminui c ao do tamanho da regi ao de conan ca.
Exerccio 9.10: Estabelecer a rela c ao entre o posto de A e a limita c ao do
politopo . Justicar a suposi c ao de que o posto de A e n.
Exerccio 9.10: Formular o Algoritmo da Se c ao 9.5 para o caso linear
f(x) = c
T
x. Mostrar que a solu c ao do subproblema e a de um sistema
linear com matriz denida positiva. Relacionar quase-singularidade dessa
matriz com pontos degenerados (n ao-regulares) da fronteira.
9.5. PONTOS INTERIORES 169
Exerccio 9.11: Modicar o algoritmo (colocando salvaguardas) de maneira
que sua convergencia possa ser provada usando tecnicas de regi oes de con-
an ca.
Exerccio 9.12: Detalhar a mudan ca de vari aveis que faz com que o sub-
problema tenha como domnio uma bola.
Exerccio 9.13: Justicar a arma c ao se

f e convexa ou quadr atica, d
k
e
uma dire c ao de descida. Mostrar que n ao e verdade no caso n ao-convexo.
170 CHAPTER 9. RESTRIC

OES LINEARES
Chapter 10
Penalidade
N ao apenas em otimiza c ao, mas tambem em outras areas da atividade
humana, procura-se converter problemas complexos em outros cuja resolu c ao
e conhecida. Os leitores satisfeitos com as estrategias introduzidas ate aqui
para minimiza c ao sem restri c oes, minimiza c ao em caixas e em politopos
se sentiriam agradecidos se qualquer outro problema de otimiza c ao com re-
stri c oes n ao lineares pudessse ser reduzido ` aqueles. A penalidade e o proced-
imento mais radical para isso. Mediante ele, a n ao-satisfa c ao (ou o risco de
n ao-satisfa c ao) de uma restri c ao e sancionada com um acrescimo da fun c ao
objetivo, de maneira que a fun c ao que dene a restri c ao e eliminada como
tal e substituda por um termo introduzido no objetivo.
Na chamada penalidade interna a fun c ao objetivo e modicada agre-
gando um termo funcional que tende a innito quando o ponto se aproxima
da fronteira do conjunto factvel. Forma-se assim uma especie de barreira
intransponvel: metodos irrestritos come cando no interior da regi ao s ao des-
encorajados de se aproximar do contorno devido a valores muito altos do
objetivo. Por esse motivo, os metodos de penalidade interna s ao tambem
conhecidos por metodos de barreira. Esses s ao, por outro lado, os mais anti-
gos metodos de pontos interiores, com prestgio radicalmente incrementado
ap os a revolu c ao que seguiu-se ao trabalho de Karmarkar [124].
Na penalidade externa, muitas vezes denominada simplesmente de pe-
nalidade, acrescenta-se na fun c ao objetivo um termo cujo custo aumenta
com a viola c ao das restri c oes. A solu c ao de um problema penalizado exter-
namente est a, geralmente, fora do conjunto factvel, mas se aproxima dele
quando o termo de penalidade e muito grande.
A raz ao pela qual a penalidade n ao e o procedimento universal para li-
dar com restri c oes e que o par ametro que deve multiplicar ` a fun c ao-restri c ao
171
172 CHAPTER 10. PENALIDADE
para castigar viola c ao (na externa) ou o risco de viola c ao (na interna)
provoca, ao tomar valores extremos, pesado mal-condicionamento do prob-
lema. Tambem peca a losoa penalizadora por outro defeito essencial:
a pr opria estrutura do problema e transtornada quando uma restri c ao e
acrescida ` a fun c ao objetivo, em geral, complicando a sionomia desta. No
entanto, todas as estrategias de penalidade est ao vivas na otimiza c ao con-
tempor anea por sua simplicidade, adaptabilidade para problemas de grande
porte, e capacidade de se enriquecer automaticamente com os progressos
realizados na resolu c ao de problemas mais simples.
10.1 Metodos de barreiras
Os metodos de penalidade interna ou barreiras foram originalmente pro-
postos para lidar com restri c oes n ao lineares de desigualdade, quando, via
de regra, o conjunto factvel tem interior n ao vazio.
Consideraremos, para a introdu c ao dos metodos de penalidade interna,
problemas de otimiza c ao da seguinte forma:
Minimizar f(x)
sujeita a c(x) 0 , x T,
(10.1.1)
onde T e um subconjunto de IR
n
, c : IR
n
IR
m
, f , c C
0
(T) e
= x T [ c(x) 0
tem interior relativo n ao vazio, denotado por

= x T [ c(x) > 0. Va-


mos supor que (10.1.1) tem minimizador global.
Podemos transformar (10.1.1) em um problema irrestrito com fun c ao
objetivo f(x) +tB(x) , t > 0, onde a fun c ao barreira B satisfaz os seguintes
axiomas:
(i) B(x) est a denida e e contnua para todo x

.
(ii) B(x) 0 para todo x

.
(iii) Se x
k
, c(x
k
) > 0 para todo k e lim
k
c
i
(x
k
) = 0 para algum
i 1, . . . , m, ent ao lim
k
B(x
k
) = .
A diferenciabilidade da fun c ao barreira n ao e essencial para o metodo
em si. Entretanto, se a fun c ao objetivo original e diferenci avel, torna-se
10.1. M

ETODOS DE BARREIRAS 173


interessante que B tambem o seja, pois assim podem ser aplicadas tecnicas
para minimiza c ao sem restri c oes que explorem ao m aximo a estrutura do
problema.
Tendo por princpio os tres axiomas acima, podemos estabelecer o metodo
b asico de penalidade interna:
Algoritmo 10.1.1 - Barreiras.
Dados t
1
> 0, x
0

, k = 1.
(1) Calcular x
k
x(t
k
) solu c ao global de
Minimizar f(x) +t
k
B(x)
sujeita a x

.
(10.1.2)
(2) Escolher t
k+1
tal que 0 < t
k+1
< t
k
, k k + 1 e voltar para (1).
Para obter x
k
, no Passo 1 do algoritmo, usamos um metodo qualquer
para minimizar fun c oes com a restri c ao x T. Quase sempre, se tratar a de
um algoritmo iterativo, e o ponto inicial recomend avel nesse caso ser a x
k1
,
embora diversas estrategias de acelera c ao possam ser implementadas. Es-
tritamente falando, no problema penalizado (10.1.2) aparecem as restri c oes
c
i
(x) > 0 alem de x T. No entanto, como a fun c ao objetivo de (10.1.2)
tende a innito quando x tende ` a fronteira, estamos autorizados a supor
que um algoritmo irrestrito (ou melhor, restrito apenas a T), n ao sentir a a
menor atra c ao por pontos muito pr oximos ao contorno, e que, portanto,
permanecer a tambem afastado de pontos externos.
`
As vezes, pode ser
necess aria alguma modica c ao leve do algoritmo irrestrito para garan-
tir a permanencia no interior de . Sabemos, por outro lado, que encontrar
minimizadores globais costuma ser muito difcil e que, usando metodos it-
erativos, n ao poderemos, de fato, atingir exatamente a solu c ao de (10.1.2).
Por isso, na pr atica, x
k
ser a apenas uma solu c ao aproximada de (10.1.2).
As propriedades do metodo, no entanto, emergem de maneira poderosa e
surpreendentemente simples quando consideramos sua vers ao exata.
A seq uencia de par ametros de penalidade t
k
deve tender a 0. Uma
regra m agica e fazer t
1
= 1 e t
k+1
= t
k
/10 para todo k. Para problemas
n ao muito complicados, pode-se tentar resolver um unico subproblema com
um par ametro muito pequeno, na expectativa que a solu c ao computada
esteja pr oxima da solu c ao do problema original. Esta estrategia e chamada
shortcut (atalho) em [69] e, ` as vezes, pode ser fragorosamente ineciente.
Existem dois exemplos cl assicos de fun c oes barreira: a fun c ao barreira
174 CHAPTER 10. PENALIDADE
inversa
B(x) =
m

i=1
1
c
i
(x)
(10.1.3)
e a fun c ao barreira logartmica
B(x) =
m

i=1
log (c
i
(x)) . (10.1.4)
A fun c ao (10.1.4) pode assumir valores negativos, e portanto, n ao cumpre
o axioma (ii). Porem, no caso em que e limitado, veremos que trabalhar
com ela e equivalente a faze-lo com uma outra fun c ao que sim satisfaz os ax-
iomas. Observemos, primeiro, que quando o interior de e limitado, ent ao
a fun c ao (10.1.4) e limitada inferiormente.
Exerccio 10.1: Provar a arma c ao anterior.
Seja M IR tal que B(x) > M para todo x

e consideremos

B(x) =
m

i=1
log (c
i
(x)) M . (10.1.5)

E f acil ver que



B satisfaz os tres axiomas da fun c ao barreira. Agora, o
problema com barreira associado a

B:
Minimizar f(x) +t

B(x)
sujeita a x

,
coincide com
Minimizar f(x) +tB(x) tM
sujeita a x

,
que e equivalente a
Minimizar f(x) +tB(x)
sujeita a x

.
Assim, a fun c ao logartmica (10.1.4) pode ser usada como barreira sem nen-
hum prejuzo.
De agora em diante, denimos
Q(x, t) = f(x) +tB(x) , (10.1.6)
e passamos a provar as propriedades fundamentais do Algoritmo 10.1.1.
10.1. M

ETODOS DE BARREIRAS 175


Lema 10.1.2
Seja x
k
a seq uencia gerada pelo Algoritmo 10.1.1. Ent ao
Q(x
k+1
, t
k+1
) Q(x
k
, t
k
) (10.1.7)
B(x
k
) B(x
k+1
) (10.1.8)
f(x
k+1
) f(x
k
) . (10.1.9)
Prova: Como a seq uencia de par ametros penalizadores e mon otona decres-
cente, pelo axioma (ii) da fun c ao barreira B e pelo fato de x
k
ser uma
seq uencia de minimizadores globais de (10.1.2) temos:
Q(x
k+1
, t
k+1
) = f(x
k+1
) + t
k+1
B(x
k+1
)
f(x
k
) + t
k+1
B(x
k
)
f(x
k
) + t
k
B(x
k
)
= Q(x
k
, t
k
) .
Para mostrarmos a validade de (10.1.8), temos:
Q(x
k+1
, t
k+1
) = f(x
k+1
)+t
k+1
B(x
k+1
) f(x
k
)+t
k+1
B(x
k
) . (10.1.10)
Por outro lado,
Q(x
k
, t
k
) = f(x
k
) +t
k
B(x
k
) f(x
k+1
) +t
k
B(x
k+1
) . (10.1.11)
Subtraindo (10.1.11) de (10.1.10) obtemos
(t
k+1
t
k
) B(x
k+1
) (t
k+1
t
k
) B(x
k
)
e como t
k+1
t
k
0 segue que B(x
k
) B(x
k+1
) .
Por m, usando (10.1.8) temos
f(x
k+1
) +t
k+1
B(x
k+1
) f(x
k
) +t
k+1
B(x
k
)
f(x
k
) +t
k+1
B(x
k+1
) .
Logo, f(x
k+1
) f(x
k
) , o que completa a prova. QED
No Teorema 10.1.3 (ver [29]), provaremos que, se usarmos o Algoritmo
10.1.1, conseguiremos uma aproxima c ao arbitrariamente pr oxima de um
minimizador global do problema original, para k sucientemente grande.
176 CHAPTER 10. PENALIDADE
Teorema 10.1.3
Seja x
k
a seq uencia de minimizadores (10.1.2) gerada pelo Algoritmo
10.1.1, com lim
k
t
k
= 0. Ent ao, todo ponto limite de x
k
e minimizador
global de (10.1.1).
Prova: Chamemos, para k = 0, 1, 2, . . . ,
b
k
= minQ(x, t
k
) [ x

. (10.1.12)
Ent ao, b
k
b
k+1
para todo k.
Agora, seja
b = minf(x) [ x .
Claramente,
b
0
b
1
b
k
b
k+1
b .
Como b
k
e uma seq uencia decrescente e inferiormente limitada, e conver-
gente:
lim
k
b
k
=

b . (10.1.13)
Se

b ,= b, ent ao

b > b.
Seja x

um minimizador global do problema (10.1.1). Como f e contnua,


existe uma bola B com centro em x

tal que para todo x Q

,
f(x) <

b
1
2
(

b b) . (10.1.14)
Agora, como 0 < t
k+1
< t
k
e B(x) 0 para x

, temos
0 < t
k+1
B(x) < t
k
B(x)
para todo x

. Portanto, lim
k
t
k
B(x) = 0 para x

. Assim, tomemos
x

. Para k sucientemente grande,


t
k
B(x

) <
1
4
(

b b) . (10.1.15)
Ent ao, por (10.1.14) e (10.1.15), para k sucientemente grande,
Q(x

, t
k
) <

b
1
4
(

b b) <

b ,
o que contradiz (10.1.12)-(10.1.13). Portanto,

b = b.
Agora, seja K um subconjunto innito de ^ tal que
lim
kK
x
k
= x
10.1. M

ETODOS DE BARREIRAS 177


onde x . Suponhamos que x ,= x

, solu c ao global de (10.1.1), com


f( x) > f(x

).
Ent ao, a seq uencia (f(x
k
) f(x

)) +t
k
B(x
k
)
kK
n ao pode convergir
a zero, o que contradiz o fato de que b
k
b 0. Logo, x = x

ou x ,= x

mas f( x) = f(x

). Ou seja, todo ponto limite da seq uencia gerada pelo


Algoritmo 10.1.1 e uma solu c ao global do problema (10.1.1). QED
Um defeito estrutural dos metodos de penalidade interna e que restri c oes
de igualdade n ao podem participar da deni c ao da fun c ao B(x). Assim, se
no problema original aparecem restri c oes desse tipo, elas devem ser conser-
vadas no conjunto T, mas n ao podem contribuir na penalidade. Portanto, se
n ao soubermos minimizar fun c oes com a restri c ao T, a barreira e inaplic avel.
N ao menos importante e a quest ao da estabilidade numerica, j a que os
subproblemas tornam-se computacionalmente mais difceis de se resolver ` a
medida que o par ametro t
k
diminui. Vejamos porque isso ocorre no seguinte
exemplo:
Minimizar f(x
1
, x
2
) = (x
1
+ 1)
2
+ (x
2
1)
2
x
1
0 ,
(10.1.16)
cuja solu c ao e x

= (0 1)
T
. Vamos considerar a fun c ao barreira
B(x) = log(x
1
).
Ent ao
Q(x, t) = (x
1
+ 1)
2
+ (x
2
1)
2
t log(x
1
).
Portanto,

x
Q(x, t) =
_
2(x
1
+ 1)
t
x
1
2(x
2
1)
_
e

2
xx
Q(x, t) =
_
2 +
t
x
2
1
0
0 2
_
.
Os pontos estacion arios com x
1
> 0 s ao da forma x =
_
1+

1+2t
2
1
_
T
,
t > 0 e ent ao

2
Q( x, t) =
_
2 +
2t
t+1

1+2t
0
0 2
_
.
Assim, como lim
t0
2t
t+1

1+2t
= , segue que o n umero de condi c ao da ma-
triz Hessiana
2
Q(x, t) tende a innito quando t 0, o que retrata alge-
bricamente a diculdade crescente dos subproblemas. Geometricamente, as
178 CHAPTER 10. PENALIDADE
curvas de nvel das fun c oes Q cam cada vez mais alongadas, o que torna
mais e mais imprecisa a determina c ao do minimizador.
O ponto de vista tradicional (ate meados da decada de 80) era que as
restri c oes incorporadas na fun c ao objetivo deviam ser as mais complicadas,
pela diculdade intrnseca a sua manipula c ao direta. Penalizar em rela c ao
a restri c oes simples teria sido considerado um sacrilegio. A apari c ao dos
metodos de pontos interiores em programa c ao linear mostrou que a situa c ao
e bem mais confusa, pois muitos desses metodos podem ser interpretados
como penalidade logartmica em rela c ao ` as restri c oes extremamente sim-
ples x
i
0. Consideremos o problema de minimiza c ao com restri c oes de
igualdade na sua forma padr ao :
Minimizar f(x)
sujeita a Ax = b , x 0 ,
(10.1.17)
onde A IR
mn
, m n e posto(A) = m.
Utilizando a fun c ao barreira logartmica, temos o seguinte subproblema,
apenas com restri c oes lineares de igualdade:
Minimizar f(x) t
n

i=1
log(x
i
)
sujeita a Ax = b .
(10.1.18)
As condi c oes de otimalidade de (10.1.18) correspondem a um sistema
n ao-linear com n +m equa c oes e n +m vari aveis:
f(x) t
_
_
_
_
1
x
1
.
.
.
1
xn
_
_
_
_
+A
T
y = 0
Ax = b .
(10.1.19)
A matriz Jacobiana do sitema (10.1.19) e dada por
_

2
f(x) +t X
2
A
T
A 0
_
(10.1.20)
onde X = diag(x
1
, . . . , x
n
). O n umero de condi c ao desta matriz cresce
quando t 0 e alguma componente x
i
, i = 1, . . . , n se aproxima de zero.
O mal-condicionamento inerente ao metodo de barreira pode ser contor-
nado com a seguinte mudan ca de vari aveis:
z
i
=
t
x
i
, i = 1, . . . , n .
10.2. PENALIDADE EXTERNA 179
Ent ao (10.1.19) pode ser reescrito como
f(x) z + A
T
y = 0
Ax = b
x
i
z
i
t = 0 , i = 1, . . . , n .
(10.1.21)
O sistema aumentado (10.1.21), com 2n+mequa c oes e 2n+minc ognitas,
tem o seguinte Jacobiano:
_
_
_

2
f(x) A
T
I
A 0 0
Z 0 X
_
_
_ (10.1.22)
onde Z = diag(z
1
, . . . , z
n
). Alem de (10.1.22) independer de t, se tivermos
complementariedade estrita, isto e, se x
i
z
i
= 0 com x
i
,= 0 ou z
i
,= 0, ent ao
(10.1.22) tem posto completo (um bom exerccio para o leitor). O sistema
(10.1.21) s o ser a mal condicionado se o problema original (10.1.17) o for.
Assim, se ao inves de trabalharmos com (10.1.18), resolvermos (10.1.21),
quando t = 0 teremos as condi c oes Karush-Kuhn-Tucker do problema origi-
nal (10.1.17). No caso em que (10.1.17) e mal-condicionado, (10.1.21) pode
ser resolvido monitorando-se a homotopia obtida quando t 0, atraves de
alguma varia c ao do metodo de Newton inexato para sistemas n ao lineares.
Em programa c ao linear, a homotopia (10.1.21) e o fundamento dos metodos
primais-duais, que, na decada dos 90 s ao os algoritmos de pontos interiores
com maior prestgio para esse problema.
10.2 Penalidade externa
Os metodos de penalidade externa ou, simplesmente, penalidade, podem
ser aplicados ao problema de otimiza c ao em seu formato mais geral:
Minimizar f(x)
sujeita a x
1
, x
2
,
(10.2.1)
onde
1
e
2
s ao subconjuntos arbitr arios de IR
n
. Suponhamos, como antes,
que (10.2.1) admite minimizador global.
O princpio e a utiliza c ao de uma fun c ao contnua que se anula no
conjunto a ser penalizado e e positiva fora dele. Assim, se no problema
(10.2.1) quisermos penalizar em rela c ao ao conjunto
1
, basta escolhermos
180 CHAPTER 10. PENALIDADE
P : IR
n
IR, P C
0
(IR
n
) tal que
P(x)
_
= 0 se x
1
> 0 se x ,
1
.
(10.2.2)
Com a introdu c ao de um par ametro 0, temos o seguinte problema
penalizado associado a (10.2.1):
Minimizar f(x) + P(x)
sujeita a x
2
.
(10.2.3)
Quando torna-se muito grande, a viola c ao das restri c oes ca cada vez
mais cara, de tal forma que as solu c oes dos problemas (10.2.3), para uma
seq uencia controlada de aumentos em , produz uma seq uencia cujos pontos
de acumula c ao resolvem o problema original, conforme provaremos adiante.
Sistematizando as ideias acima em forma algortmica, com a fun c ao de
penalidade P obedecendo (10.2.2), temos:
Algoritmo 10.2.1 - Penalidade externa.
Dados
1
0, x
0
IR
n
, k = 1.
(1) Calcular x
k
x(
k
) IR
n
como a solu c ao de
Minimizar f(x) +
k
P(x)
sujeita a x
2
.
(10.2.4)
(2) Escolher
k+1
>
k
, k k + 1 e voltar para (1).
De maneira an aloga ao que ocorre com o Algoritmo 10.1.1, na seq uencia
x
k
gerada pelo Algoritmo 10.2.1 os pontos s ao desvinculados, e e ape-
nas aconselh avel que x
k1
seja o ponto inicial para o algoritmo que resolve
(10.2.4). O monitoramento dos par ametros penalizadores e, em geral, feito
da seguinte forma:
1
= 1 e
k
= 10
k1
. Da mesma forma que em pe-
nalidade interna, a estrategia shortcut pode ser usada, tomando
1
muito
grande (por exemplo, 10
24
) e resolvendo um unico problema do tipo (10.2.4).
Infelizmente, isso nem sempre funciona.
Vamos apresentar alguns exemplos de fun c oes de penalidade. Se o con-
junto factvel a ser penalizado e dado por:

1
= x IR
n
[ h(x) = 0 ,
onde h : IR
n
IR
m
, podemos tomar
P(x) =
m

i=1
h
i
(x)
2
= |h(x)|
2
2
.
10.2. PENALIDADE EXTERNA 181
Se abrirmos m ao da diferenciabilidade, podemos denir
P(x) =

_
m

i=1
h
i
(x)
2
= |h(x)|
2
,
ou ainda
P(x) =
m

i=1
[h
i
(x)[ = |h(x)|
1
.
Para

1
= x IR
n
[ c(x) 0 ,
onde c : IR
n
IR
p
, temos
P(x) =
p

i=1
(min0 , c
i
(x))
2
.
Agora, se

1
= x IR
n
[ h(x) = 0 , c(x) 0 ,
onde h : IR
n
IR
m
e c : IR
n
IR
p
, a fun c ao P pode ser dada por:
P(x) =
m

i=1
h
i
(x)
2
+
p

i=1
(min0, c
i
(x))
2
.
Quando

1
= x IR
n
[ g(x) 0 ,
com g : IR
n
IR
p
, e usual a nota c ao
g
i
(x)
+
= max0 , g
i
(x) , i = 1 , . . . , p
e ent ao g(x)
+
e o vetor p-dimensional cuja i-esima componente e g
i
(x)
+
.
Assim, podemos considerar uma classe geral de fun c oes de penalidade
P(x) = (g(x)
+
) (10.2.5)
onde : IR
p
IR e uma fun c ao contnua denida de forma a satisfazer
(10.2.2). Por exemplo, (y) =
1
2
|y|
2
2
ou (y) = y
T
Ay, onde A IR
pp
e
simetrica denida positiva.
Denotando a fun c ao objetivo do problema penalizado por
T(x, ) = f(x) + P(x) , (10.2.6)
182 CHAPTER 10. PENALIDADE
temos as seguintes propriedades:
Lema 10.2.2
Seja x
k
a seq uencia gerada pelo Algoritmo 10.2.1.
Se x
k
e a solu c ao global de (10.2.4), ent ao
T(x
k
,
k
) T(x
k+1
,
k+1
) (10.2.7)
P(x
k+1
) P(x
k
) (10.2.8)
f(x
k
) f(x
k+1
) . (10.2.9)
Prova: Como para todo k temos 0
k

k+1
e x
k
e minimizador global
de (10.2.4) temos:
T(x
k
,
k
) = f(x
k
) +
k
P(x
k
)
f(x
k+1
) +
k
P(x
k+1
)
f(x
k+1
) +
k+1
P(x
k+1
)
= T(x
k+1
,
k+1
) .
Agora,
T(x
k
,
k
) = f(x
k
) +
k
P(x
k
) f(x
k+1
) +
k
P(x
k+1
) (10.2.10)
e
T(x
k+1
,
k+1
) = f(x
k+1
) +
k+1
P(x
k+1
) f(x
k
) +
k+1
P(x
k
) .
(10.2.11)
Subtraindo (10.2.11) de (10.2.10) temos
(
k

k+1
) P(x
k
) (
k

k+1
) P(x
k+1
)
e como
k
<
k+1
, segue que P(x
k+1
) P(x
k
).
Finalmente, usando (10.2.8) temos
f(x
k
) +
k
P(x
k
) f(x
k+1
) +
k
P(x
k+1
) f(x
k+1
) +
k
P(x
k
)
ou seja, f(x
k
) f(x
k+1
) e a prova est a completa. QED
Temos ainda uma outra rela c ao para as seq uencias de valores das fun c oes
objetivo original e penalizada, de onde se deduz que, se x
k
n ao e solu c ao
de (10.2.1), necessariamente deve ser um ponto externo a .
10.2. PENALIDADE EXTERNA 183
Lema 10.2.3
Se x

e um minimizador global do problema (10.2.1), ent ao, para k = 0, 1, . . .


temos
f(x
k
) T(x
k
,
k
) f(x

) . (10.2.12)
Como conseq uencia, x
k
se, e somente se, e uma solu c ao global de
(10.2.1).
Prova: Como
k
0, P(x) 0 para todo x IR
n
e x
k
e minimizador
global de (10.2.4) temos:
f(x
k
) f(x
k
) +
k
P(x
k
) f(x

) +
k
P(x

) = f(x

) .
QED
No que se segue, apresentamos o resultado cl assico de convergencia dos
metodos de penalidade externa.
Teorema 10.2.4
Seja x
k
a seq uencia de minimizadores globais de (10.2.4), gerada pelo
Algoritmo 10.2.1 com
k
. Ent ao, todo ponto limite de x
k
e mini-
mizador global do problema (10.2.1).
Prova: Seja K um subconjunto innito de ^ tal que lim
kK
x
k
= x. Pela
continuidade de f temos
lim
kK
f(x
k
) = f( x) . (10.2.13)
Seja f

o valor otimo associado ao problema (10.2.1), isto e,


f

= minf(x) [ x
1
, x
2
.
Pelos Lemas 10.2.2 e 10.2.3, a seq uencia T(x
k
,
k
) e n ao-decrescente e
limitada superiormente por f

. Ent ao,
lim
kK
T(x
k
,
k
) = p

= f

. (10.2.14)
Subtraindo (10.2.13) de (10.2.14) temos:
lim
kK

k
P(x
k
) = p

f( x) . (10.2.15)
Como P(x
k
) 0 e
k
, por (10.2.15) segue que
lim
kK
P(x
k
) = 0 .
184 CHAPTER 10. PENALIDADE
Pela continuidade de P, P( x) = 0, ou seja, x
1
. Para provarmos que
x e otimo, basta notarmos que pelo Lema 10.2.3, f(x
k
) f

e ent ao
f( x) = lim
kK
f(x
k
) f

,
o que completa a prova. QED
Vamos nos concentrar agora na fun c ao de penalidade externa mais pop-
ular, que consiste em elevar ao quadrado cada restri c ao violada. Para xar
ideias, pensaremos apenas na minimiza c ao com restri c oes de igualdade:
Minimizar f(x) sujeita a h(x) = 0,
onde h : IR
n
IR
m
e todas as fun c oes tem derivadas contnuas. A fun c ao
de penalidade ser a
P(x) =
1
2
|h(x)|
2
2
.
Portanto, a condi c ao necess aria de otimalidade em x
k
e
f(x
k
) +h

(x
k
)
T

k
h(x
k
) = 0.
Logo, o vetor
k
h(x
k
) desempenha, em rela c ao a x
k
, o mesmo papel que
os multiplicadores de Lagrange na solu c ao tem em rela c ao a x

. Essa pro-
priedade, que provaremos rigorosamente a seguir, autoriza o uso de
k
h(x
k
)
como estimador dos multiplicadores, o que, como se ver a na pr oxima se c ao,
tem sua utilidade.
Teorema 10.2.5
Suponhamos que o Algoritmo 10.2.1 seja aplicado ao problema (10.2.1)
com
1
= x IR
n
[ h(x) = 0, h : IR
n
IR
m
, h C
1
,
2
IR
n
com a fun c ao
de penalidade P(x) =
1
2
|h(x)|
2
2
. Correspondendo ` a seq uencia x
k
gerada
por este algoritmo, denimos
k
=
k
h(x
k
). Se x
k
x

, onde x

e solu c ao
global de (10.2.1) e ponto regular, ent ao
k

, onde

e o vetor dos
multiplicadores de Lagrange associado a x

.
Prova: O subproblema (10.2.4), sob as hip oteses acima, converte-se no
seguinte problema irrestrito:
Minimizar f(x) +
k
1
2
|h(x)|
2
2
. (10.2.16)
Portanto, anulando o gradiente, temos:
f(x
k
) +h

(x
k
)
T

k
= 0 . (10.2.17)
10.2. PENALIDADE EXTERNA 185
Como x

e solu c ao regular de (10.2.1), existe um unico

IR
m
tal que
f(x

) +h

(x

)
T

= 0 . (10.2.18)
Ou seja,

= (h

(x

)
T
)

f(x

) , (10.2.19)
onde (h

(x

)
T
)

= (h

(x

)h

(x

)
T
)
1
h

(x

). Logo, como h C
1
, para k
sucientemente grande, h

(x
k
) tem posto m e, por (10.2.17), segue que

k
h(x
k
) = (h

(x
k
)
T
)

f(x
k
) . (10.2.20)
Portanto, passando (10.2.20) ao limite quando k , pela continuidade
de [h

(x)]

numa vizinhan ca de x

, por (10.2.19) temos


lim
k

k
= lim
k

k
h(x
k
) =

.
QED
Exerccio 10.2: Generalizar o Teorema 10.2.5 para desigualdades.
Infelizmente, de maneira an aloga aos metodo de barreiras, a diculdade
em se resolver os subproblemas cresce com o aumento do par ametro penal-
izador . Vejamos como isso acontece no exemplo (10.1.16), para o qual o
problema penalizado pode ser dado por:
Minimizar T(x, ) = (x
1
+ 1)
2
+ (x
2
1)
2
+ P(x
1
, x
2
) , (10.2.21)
onde P(x
1
, x
2
) =
_
0 se x
1
0
x
2
1
se x
1
< 0 .
Como a fun c ao objetivo de (10.2.21) e convexa, basta determinar os
pontos em que
x
T(x, ) =
_
2(x
1
+ 1) + 2x
1
2(x
2
1)
_
se anula, obtendo x
1
=
1
1+
, x
2
= 1 e ent ao lim

x
1
= 0. Agora,
2
xx
T(x, ) =
_
2 + 2 0
0 2
_
,
ou seja, cond(
2
xx
T(x, )) quando . Numericamente, o termo
penalizador absorve o termo relativo ` a fun c ao objetivo original.
Vamos agora analisar a Hessiana do problema penalizado associado ao
problema geral de minimiza c ao com restri c oes de igualdade:
Minimizar f(x)
sujeita a h(x) = 0 ,
(10.2.22)
186 CHAPTER 10. PENALIDADE
onde h : IR
n
IR
m
e f, h C
2
(IR
n
). Se P(x) =
1
2
h(x)
T
h(x), temos
T(x, ) = f(x) +

2
h(x)
T
h(x) (x()). Ent ao, se x x(), temos
(x) = f(x) + h

(x)
T
h(x)
e

2
(x) =
2
f(x) + [h

(x)
T
h

(x) +
m

i=1
h
i
(x)
2
h
i
(x)] . (10.2.23)
Se x

IR
n
e uma solu c ao regular de (10.2.22) e

IR
m
e o multipli-
cador de Lagrange associado, pelo Teorema 10.2.5 sabemos que
lim

h(x()) =

.
Ent ao, para sucientemente grande,

2
(x)
2
f(x) +
m

i=1

2
h
i
(x) + h

(x)
T
h

(x) .
Embora
2
f(x) +

m
i=1

2
h
i
(x) independa de , o termo dominante
h

(x)
T
h

(x) tem posto deciente, fazendo com que o n umero de condi c ao


de
2
(x) cres ca ilimitadamente quando .
Vamos tentar contornar esta diculdade, analisando o sistema n ao lin-
ear que representa as condi c oes de otimalidade de problema penalizado com
mais cuidado (ver [143]). Escrevendo esse problema como
Minimizar (x()) = f(x) +

2
|h(x)|
2
2
, (10.2.24)
temos que seus pontos estacion arios s ao os que vericam
f(x) + h

(x)
T
h(x) = 0 . (10.2.25)
Fazendo a mudan ca de vari aveis y = h(x), o sistema (10.2.25) se converte
em
f(x) +h

(x)
T
y = 0
h(x)
y

= 0
(10.2.26)
cuja Jacobiana, membro da esquerda da seguinte express ao, verica
_

2
f(x) h

(x)
T
h

(x)
1

I
_

_

2
f(x) h

(x)
T
h

(x) 0
_
. (10.2.27)
10.2. PENALIDADE EXTERNA 187
Assim, no limite, o Jacobiano (10.2.27) n ao e, necessariamente, mal-
condicionado. A instabilidade proveniente do par ametro penalizador deixa
de existir, e (10.2.27) s o ser a mal-condicionado se h

(x) tiver posto deciente,


o que e uma caracterstica do problema, e n ao um defeito do processo de
penalidade. Uma discuss ao do uso do sistema (10.2.26) do ponto de vista do
raio de convergencia do metodo de Newton pode ser encontrada em [143]. O
pr oprio metodo de Newton aplicado a (10.2.24) pode ser estabilizado com um
artifcio similar ao usado aqui (ver [104]), mas a velocidade de convergencia
e maior quando usamos (10.2.26) como estrategia estabilizadora.
Infelizmente, com esta abordagem via sistemas n ao lineares perdemos
a estrutura de minimiza c ao inerente ao problema (10.2.24). Com efeito,
a matriz Jacobiana (10.2.27) e simetrica, mas n ao e semidenida positiva.
Assim, resolver o sistema (10.2.26) n ao e equivalente a um problema de
minimiza c ao em (x, y). Embora exista uma fun c ao potencial
T(x, y) = f(x) +h(x)
T
y
1

y
T
y,
o problema primitivo n ao seria minimiz a-la pois
2
yy
T(x, y) =
1

I < 0.
Temos, portanto, uma motiva c ao para pensarmos numa abordagem um
pouco diferente da penalidade externa, que ser a tratada na pr oxima se c ao.
Para nalizarmos a an alise dos metodos de penalidade externa, vamos
considerar as chamadas fun c oes de penalidade exatas, em que a solu c ao do
problema penalizado e exatamente a solu c ao do problema original para um
valor nito do par ametro penalizador. Assim, com estas fun c oes n ao seria
preciso resolver uma seq uencia innita de subproblemas. Infelizmente, a
maioria da fun c oes de penalidade exatas s ao n ao-diferenci aveis na solu c ao.
Um exemplo diferenci avel, mas de interesse sobretudo te orico devido a sua
complexidade, e a fun c ao de introduzida por Fletcher ([67], [68]) que, para
o problema (10.2.22), e
T(x, ) = f(x) h(x)
T
(x) +

2
h(x)
T
h(x) ,
onde (x) = (h

(x)
T
)

f(x).
A fun c ao de penalidade exata n ao diferenci avel mais conhecida e baseada
na norma | |
1
e, para o problema (10.2.22), toma a forma
P(x) =
m

i=1
[h
i
(x)[ = |h(x)|
1
,
portanto
T(x, ) = f(x) + |h(x)|
1
. (10.2.28)
188 CHAPTER 10. PENALIDADE
A fun c ao (10.2.28) tem derivadas descontnuas em todos os pontos factveis,
e portanto, uma solu c ao x

para (10.2.22) e um ponto de descontinuidade


do seu gradiente. Desta forma, os metodos de minimiza c ao irrestrita con-
vencionais n ao se aplicam a (10.2.26) e s ao necess arios algoritmos especcos
que utilizam informa c oes do problema original (10.2.22) ( ver, por exemplo,
[36] e [37]).
O resultado a seguir estabelece a convergencia dos subproblemas penal-
izados associados a (10.2.22) para um par ametro nito quando se usa a
fun c ao de penalidade exata baseada na norma | |
1
.
Teorema 10.2.6
Se x

e um ponto que satisfaz as condi c oes sucientes de segunda ordem


para minimizador local de (10.2.22) (captulo 2) e

IR
m
e o vetor dos
multiplicadores de Lagrange correspondente, ent ao, para > max[(

)
i
[ , i =
1 , . . . , m, x

tambem e um minimizador local da fun c ao (10.2.28).


Prova: Ver Luenberger [129], p.389.
No resultado acima, vemos que o valor crucial para a partir do qual o
subproblema passa a admitir como minimizador a solu c ao do problema orig-
inal depende dos multiplicadores otimos, sendo portanto desconhecido. Po-
dem surgir diculdades por uma escolha inadequada de . Se for muito pe-
queno, a fun c ao penalizada pode ser inferiormente ilimitada. Por outro lado,
se for muito grande, surgem os problemas de mal-condicionamento. Out-
ras tentativas de amortecer o mal-condicionamento provocado por grandes
par ametros podem ser encontradas na literatura. Ver, por exemplo, [45] e
[203].
10.3 Lagrangiano aumentado
Na se c ao anterior, vimos que o grande defeito dos metodos de penal-
idade externa e a necessidade de que o par ametro penalizador cres ca
ilimitadamente provocando instabilidade numerica. Ainda que se trabalhe
com fun c oes de penalidade exatas, estas s ao, freq uentemente, pouco pr aticas
(n ao-diferenci aveis ou muito complicadas). Por outro lado, considerando-se
o problema original de minimiza c ao com restri c oes de igualdade (10.2.22),
se ao inves de resolvermos o problema penalizado (10.2.24), trabalharmos
com o sistema n ao-linear aumentado (10.2.26), perdemos a estrutura iner-
10.3. LAGRANGIANO AUMENTADO 189
ente do problema pois a matriz Jacobiana n ao e semidenida positiva. Os
metodos de Lagrangiano aumentado tem por objetivo conciliar estes dois
aspectos: contornar o mal-condicionamento proveniente de e evitar
a perda da estrutura de minimiza c ao. Foram sugeridos independentemente
por Hestenes [118] e Powell [161].
Para xar ideias, vamos considerar o problema de minimiza c ao com re-
stri c oes de igualdade
Minimizar f(x)
sujeita a h(x) = 0 ,
(10.3.1)
onde f : IR
n
IR, h : IR
n
IR
m
, f, h C
1
(IR
n
). No entanto, as ideias
de Lagrangiano aumentado se aplicam ao problema que tambem contem
restri c oes de desigualdade. De fato, o caso mais importante e o denido
pela forma padr ao
Minimizar f(x)
sujeita a h(x) = 0 , l x u ,
usado por Conn, Gould e Toint ([43], [44]) no desenvolvimento do pacote
LANCELOT para programa c ao n ao-linear de grande porte.
As condi c oes de Lagrange para (10.3.1) s ao dadas pelo bem-conhecido
sistema n ao-linear com n +m equa c oes e n +m vari aveis:
f(x) +h

(x)
T
y = 0
h(x) = 0 .
(10.3.2)
Se (x
T

, y
T

)
T
satisfaz (10.3.2), ent ao, denindo a fun c ao Lagrangiana
da maneira usual,
(x, y) = f(x) +h(x)
T
y,
temos
(x

, y

) = 0 .
Infelizmente, x

pode n ao ser minimizador de (x, y

), conforme ilustra
o seguinte exemplo:
Minimizar x
3
sujeita a x + 1 = 0 ,
onde x

= 1, y

= 3, (x, y

) = x
3
3(x + 1),

(x, y

) = 3x
2
3,

(x, y

) = 6x e portanto

(x

, y

) = 6 < 0.
Agora, as condi c oes necess arias de otimalidade de segunda ordem estab-
elecem que a Hessiana, em rela c ao a x, da fun c ao Lagrangiana e semidenida
190 CHAPTER 10. PENALIDADE
positiva no n ucleo de h

(x

) (ver captulo 2). Portanto, as dire c oes de cur-


vatura negativa de como fun c ao de x podem ser encontradas, preferencial-
mente, no subespa co ortogonal a esse n ucleo, o espa co coluna (h

(x

)
T
).
Isto nos sugere que um subproblema irrestrito conveniente pode ser obtido se
as caractersticas de estacionariedade de x

forem mantidas, mas alterando-


se a Hessiana
2
no espa co imagem de h

(x

)
T
. Mostraremos abaixo
que esse e precisamente o efeito produzido acrescentando-se ` a fun c ao La-
grangiana o termo

2
|h(x)|
2
2
, > 0. Veremos que, nesse caso, existe
nito para o qual a fun c ao Lagrangiana aumentada e localmente convexa
em torno de (x
T

, y
T

)
T
. Antes vamos precisar do seguinte lema:
Lema 10.3.1
Seja G = G
T
IR
nn
tal que z
T
Gz > 0 para todo z ^(A), z ,= 0,
A IR
mn
.
Existe

0 tal que G+A
T
A > 0 para todo

.
Prova: Suponhamos que, para todo k ^, exista x
k
IR
n
, |x
k
| = 1, tal
que
x
T
k
(G+kA
T
A)x
k
0 . (10.3.3)
Pela compacidade dos x
k
s, existe K subconjunto innito de ^ tal que
lim
kK
x
k
= x. Como x
k
A
T
Ax
k
0 para todo k, por (10.3.3) segue que
x
T
A
T
A x = 0, ou seja, x ^(A). Ent ao, por (10.3.3), x
T
G x 0, com
x ^(A), o que e uma contradi c ao. QED
Agora mostraremos que e suciente um valor nito de para transfor-
mar x

num minimizador local estrito do Lagrangiano, em rela c ao ` a vari avel


x.
Teorema 10.3.2
Se x

satisfaz as condi c oes sucientes de segunda ordem para o prob-


lema (10.3.1) (ver captulo 2) e y

IR
m
e o vetor dos multiplicadores
correspondente, ent ao existe 0 tal que a fun c ao

(x) = f(x) +y
T

h(x) +

2
|h(x)|
2
2
(10.3.4)
tem um minimizador local estrito em x

para todo .
Prova: Temos que

(x) = f(x) + h

(x)
T
y

+ h

(x)
T
h(x). Portanto,
10.3. LAGRANGIANO AUMENTADO 191

(x

) = 0, ou seja, x

tambem e ponto estacion ario de (10.3.4). Agora,

(x) =
2
f(x) +
m

i=1
y

2
h
i
(x) + (h

(x)
T
h

(x) +
m

i=1
h
i
(x)
2
h
i
(x)) .
Logo,
2

(x

) =
2
(x

) + h

(x

)
T
h

(x

), e o resultado desejado segue


pelo Lema 10.3.1. QED
O Teorema 10.3.2 e animador no seguinte sentido. Se os multiplicadores
de Lagrange na solu c ao nos fossem dados de presente, bastaria um valor
nito de para transformar nosso problema original em um problema ir-
restrito. Infelizmente, n ao sabemos, a priori, qual seria esse valor nito (pelo
qual corremos o risco, de instabilidade por superestim a-lo ou de fun c oes
n ao-limitadas por subestim a-lo) e, muito menos, qual e o vetor de multi-
plicadores de Lagrange. No entanto, o resultado sugere que, se em vez do
vetor verdadeiro de multiplicadores, tivermos uma estimativa, os valores de
necess arios para uma boa aproxima c ao da solu c ao n ao precisariam ser as-
tron omicos. Para elaborar melhor este ponto de vista, observemos que o
problema (10.3.1) e equivalente a
Minimizar f(x) +y
T
h(x)
sujeita a h(x) = 0 ,
(10.3.5)
para qualquer y IR
m
. (Podemos ler, se quisermos, para qualquer esti-
mador dos multiplicadores de Lagrange y.)
Aplicando penalidade quadr atica a (10.3.5), temos
Minimizar f(x) +y
T
h(x) +

2
h(x)
T
h(x) , (10.3.6)
que, para cada y IR
m
e um problema diferente.
Quando resolvemos (10.3.6), obtemos
f(x) +h

(x)
T
y + h

(x)
T
h(x) = 0
ou
f(x) +h

(x)
T
(y + h(x)) = 0 .
Por compara c ao direta com (10.3.2) e, tambem, amparados pelo Teo-
rema 10.2.5, deduzimos que y + h(x) pode ser uma estimativa razo avel
para y

. Isto sugere o seguinte algoritmo:


Algoritmo 10.3.3 - Lagrangiano aumentado.
Dados x
0
IR
n
,
1
> 0, y
1
IR
m
, k = 1.
192 CHAPTER 10. PENALIDADE
(1) Minimizar f(x) +y
T
k
h(x) +

k
2
|h(x)|
2
2
,
tomando x
k1
como ponto inicial e obtendo x
k
.
(2) Se |h(x
k
)| > 0.1|h(x
k1
)| ent ao
k
10
k
.
(3) Reestimar y
k+1
= y
k
+
k
h(x
k
),
k+1
=
k
, k k + 1 e voltar
para (1).
Em cada passo do metodo e garantido, pelo processo de minimiza c ao,
que f(x
k
) +h

(x
k
)
T
(y
k
+
k
h(x
k
)) = 0. No entanto, a condi c ao h(x
k
) = 0
pode estar sendo muito mal-satisfeita. Por isso, no Passo 2, e incremen-
tado o par ametro de penalidade, depois de um monitoramento de h(x).
Como rascunhamos numa se c ao anterior, o metodo de penalidade pode ser
interpretado como uma maneira de acompanhar a homotopia
f(x()) +

2
|h(x)|
2
2
= mnimo,
que desenha uma curva x() em IR
n
, culminando na solu c ao do problema
original quando = . Pela equivalencia (10.3.6), para cada y IR
m
,
temos uma curva homot opica diferente, dada por
f(x()) +h

(x)
T
y +

2
|h(x)|
2
2
= mnimo,
que, tambem, termina em x

quando = . Portanto, o metodo de


Lagrangiano aumentado pode ser interpretado como uma maneira de saltar
entre diferentes homotopias. A diferen ca entre uma e outra est a em que,
quanto mais pr oximo estiver y do vetor de multiplicadores de Lagrange cor-
reto, menor ser a o valor de necess ario para aproximar x

com uma precis ao


dada.
Na pr atica, os subproblemas que conduzem ` as itera c oes x
k
raramente
podem ser resolvidos exatamente. Portanto, x
k
deve ser interpretado, na
maioria dos casos de aplica c ao pr atica do Algoritmo 10.3.3, como um min-
imizador aproximado. Assim, algoritmos computacionais baseados no La-
grangiano aumentado incorporam criterios de parada explcitos para os sub-
problemas (10.3.6). Quando x
k
e apenas uma aproxima c ao do minimizador
do subproblema, a estimativa y
k
+
k
h(x
k
) para os multiplicadores e mais
difcil de justicar. De fato, outras estimativas mais robustas podem ser
implementadas (ver Exerccio 10.4) e a eciencia dos metodos est a bastante
ligada ` a qualidade de tais estimadores.
10.3. LAGRANGIANO AUMENTADO 193
Exerccio 10.4: Interpretar geometricamente o metodo de Lagrangiano
aumentado do Algoritmo 10.3.3. Atraves desta interpreta c ao, sugerir esti-
mativas mais sosticadas para os multiplicadores.
Exerccio 10.5: Usando apenas argumentos de penalidade, provar a con-
vergencia do Algoritmo 10.3.3.
Exerccio 10.6: Mostrar que a atualiza c ao y
k+1
= y
k
+
k
h(x
k
) corre-
sponde ao metodo de m axima subida (gradiente) aplicado ao problema dual:
Maximizar (y) = f(x) +h(x)
T
y +
1
2
|h(x)|
2
2
.
Exerccio 10.7: Sugerir e interpretar a estimativa de quadrados mnimos
para os multiplicadores quando o subproblema do passo (1) do Algoritmo
10.3.3 e resolvido aproximadamente.
Exerccio 10.8: Desenvolver um metodo de Lagrangiano aumentado para
o problema
Minimizar f(x)
sujeita a h(x) = 0 , c(x) 0 ,
onde f : IR
n
IR, h : IR
n
IR
m
, c : IR
n
IR
m
.
Exerccio 10.9: Desenvolver um metodo de Lagrangiano aumentado para
Minimizar f(x)
sujeita a h(x) = 0 , l x u,
onde os subproblemas s ao
Minimizar f(x) +h(x)
T
y +

2
|h(x)|
2
2
sujeita a l x u .
Esta e a abordagem do pacote LANCELOT ([43, 44]).
Exerccio 10.10: Desenvolver e discutir um metodo de Lagrangiano au-
mentado para
Minimizar f(x)
sujeita a h(x) = 0 , Ax = b , l x u,
onde os subproblemas tenham a forma
Minimizar f(x) +h(x)
T
y +

2
|h(x)|
2
2
sujeita a Ax = b , l x u .
194 CHAPTER 10. PENALIDADE
Exerccio 10.11: Discutir diferentes formas de aplicar Lagrangiano au-
mentado a programa c ao linear e a programa c ao quadr atica.
194 CHAPTER 10. PENALIDADE
Chapter 11
Gradiente reduzido
generalizado
Contrariamente aos metodos de penalidade, cujo princpio b asico e evitar
a manipula c ao das restri c oes, mediante sua inclus ao na fun c ao objetivo,
os metodos analisados neste captulo optam por conservar a factibilidade,
lidando diretamente com as restri c oes como elas s ao. A ideia fundamental
e enxergar o problema original, pelo menos localmente, como um problema
irrestrito num espa co de dimens ao menor.
Wolfe [200] prop os o metodo de gradiente reduzido, para problemas de min-
imiza c ao com restri c oes lineares. Este metodo foi estendido por Abadie e
Carpentier [1] para o problema geral de programa c ao n ao-linear, originando
os metodos de gradiente reduzido generalizado (GRG). Abadie e Carpen-
tier s ao tambem respons aveis pela primeira implementa c ao computacional
do metodo b asico. Com a mesma losoa dos metodos de restri c oes ativas
para problemas com restri c oes lineares, os metodos do tipo GRG buscam
diminuir o valor da fun c ao objetivo mantendo factibilidade dos iterandos.
A ideia b asica e que um conjunto de restri c oes de igualdade n ao lineares e
um sistema de equa c oes onde, de maneira implcita, e possvel colocar al-
gumas vari aveis em fun c ao de outras. Assim, minimizar com esse conjunto
de restri c oes passa a ser um problema irrestrito cujas vari aveis s ao, justa-
mente, as vari aveis selecionadas como independentes. Quando h a restri c oes
de desigualdade procedimentos adequados para mudar de face devem ser
introduzidos.
Os metodos de tipo GRG tem analogia computacional com o metodo Sim-
plex para programa c ao linear. Usando tecnicas de fatora c ao de matrizes e
de manipula c ao de esparsidade similares ` as usadas no Simplex, foram desen-
195
196 CHAPTER 11. GRADIENTE REDUZIDO GENERALIZADO
volvidos programas GRG extremamente ecientes do ponto de vista pr atico
e, inclusive, com valor comercial. Ver, por exemplo, [128]. Este e um caso
onde o alto investimento realizado nos aspectos de implementa c ao compensa
a relativa falta de desaos te oricos do metodo.
11.1 Restri c oes de igualdade
Analisaremos os metodos do tipo GRG aplicados ao seguinte problema
Minimizar f(x)
sujeita a h(x) = 0 ,
(11.1.1)
onde f : IR
n
IR, h : IR
n
IR
m
, f, h C
1
(IR
n
), m n.
Seja x um ponto factvel e regular para o problema (11.1.1). Logo h

( x)
tem posto completo m. Assim, podemos considerar uma parti c ao em m
componentes dependentes ou b asicas e nm componentes independentes ou
n ao-b asicas. As componentes b asicas correspondem a uma sub-matriz n ao
singular de h

( x). Sem perda de generalidade, vamos supor que as primeiras


m colunas de h

( x) s ao linearmentes independentes. Ent ao, podemos es-


crever h

( x) = (B N), com B IR
mm
, B n ao-singular, N IR
m(nm)
e
x = ( x
T
B
x
T
N
)
T
. Portanto, h( x) = h( x
B
, x
N
) = 0 e, localmente, vale o Teo-
rema da Fun c ao Implcita: existem vizinhan cas V
1
IR
nm
e V
2
IR
m
de
x
N
e x
B
respectivamente, e uma fun c ao : V
1
V
2
tais que C
1
(V
1
),
( x
N
) = x
B
, h((x
N
), x
N
) = 0 para todo x
N
V
1
, e

(x
N
) =
_
h
x
B
(x
B
, x
N
)
_
1
h
x
N
(x
B
, x
N
)
para todo x
N
V
1
.
Desta forma, se nos restringssemos aos pares (x
B
, x
N
) para os quais o sis-
tema h(x
B
, x
N
) = 0 e equivalente a x
B
= (x
N
) (o que inclui os pares
(x
B
, x
N
) tais que x
N
V
1
e x
B
= (x
N
)) o problema (11.1.1) seria equiva-
lente a
Minimizar (x
N
) f((x
N
), x
N
)
sujeita a x
N
IR
nm
.
(11.1.2)
Com isto estamos simplesmente formalizando o procedimento mais obvio
para minimizar fun c oes com restri c oes de igualdade: colocar algumas vari aveis
em fun c ao das outras e substituir na fun c ao objetivo. O problema e que, na
maioria dos casos, n ao conhecemos a forma explcita da fun c ao .
11.1. RESTRIC

OES DE IGUALDADE 197
Usando a regra da cadeia, podemos calcular . Assim:

(x
N
) =
f
x
B
(x
B
, x
N
)

(x
N
) +
f
x
N
(x
B
, x
N
)
para todo x
N
V
1
. Em particular, para x
N
= x
N
,

( x
N
) =
f
x
B
( x
B
, x
N
)(B
1
N) +
f
x
N
( x
B
, x
N
).
Logo, transpondo a express ao acima:
( x
N
) = N
T
B
T

x
B
f( x) +
x
N
f( x)
= ( N
T
B
T
I )
_

x
B
f( x)

x
N
f( x)
_
= ( (B
1
N)
T
I ) f( x) .
A express ao ( x) calculada acima e chamada o gradiente reduzido gen-
eralizado do problema (11.1.1), no ponto factvel x, relativo ` a parti c ao
(B N). As dire c oes d IR
nm
que formam um angulo obtuso com ( x)
s ao dire c oes de descida para essa fun c ao. Se a vizinhan ca V
1
fosse igual a
IR
nm
, a aplica c ao de um metodo de minimiza c ao sem restri c oes a (11.1.2)
estaria plenamente justicada. Como freq uentemente V
1
,= IR
nm
, algumas
providencias devem ser tomadas. Com base nos nossos conhecimentos de
minimiza c ao irrestrita, estabelecemos o seguinte algoritmo conceitual para
o metodo do tipo GRG aplicado ao problema (11.1.1):
Algoritmo 11.1.1 - GRG para igualdades com busca linear.
Sejam (0, 1), ( 10
4
> 0, (0, 1) e x
0
IR
n
tal que h(x
0
) = 0.
Dado x
k
IR
n
tal que h(x
k
) = 0, x
k+1
e obtido da seguinte maneira:
Passo 1. Escolher uma parti c ao h

( x
k
) = (B
k
N
k
), com B
k
IR
mm
n ao
singular. Ent ao x
k
=
_
x
B
k
x
N
k
_
.
Calcular (x
N
k
) = ( (B
1
k
N
k
)
T
I )f(x
k
). Se (x
N
k
) = 0, parar.
Passo 2. Escolher d
k
IR
nm
tal que
|d
k
|
2
|(x
N
k
)|
2
(11.1.3)
e
(x
N
k
)
T
d
k
|(x
N
k
)|
2
|d
k
|
2
. (11.1.4)
198 CHAPTER 11. GRADIENTE REDUZIDO GENERALIZADO
Passo 3. Come car o backtracking com t = 1.
Passo 4. Calcular z = ( x
N
k
+td
k
) IR
m
, resolvendo o sistema (geralmente
n ao linear), de mm,
h(z, x
N
k
+td
k
) = 0. (11.1.5)
Se n ao e possvel resolver (11.1.5) (o que certamente acontecer a se esse
sistema n ao tem solu c ao), reduzir d
k
(por exemplo, d
k
d
k
/2), e voltar ao
Passo 3.
Passo 5. Se
f(z, x
N
k
+td
k
) f(x
B
k
, x
N
k
) +t(x
N
k
)
T
d
k
, (11.1.6)
denir x
N
k+1
= x
N
k
+ td
k
, x
B
k+1
= z = ( x
N
k
+ td
k
) e dar por terminada a
itera c ao k.
Se (11.1.6) n ao se verica, escolher um novo t [0.1t, 0.9t] e retornar ao
Passo 4.
No Passo 2 do Algoritmo 11.1.1, diferentes escolhas para d
k
produzem os
diferentes metodos do tipo GRG. Embora a dire c ao de m axima descida
d
k
= (x
N
k
) seja uma escolha possvel, alternativas quase-Newton ou o
pr oprio metodo de Newton nas coordenadas reduzidas poderiam ser con-
sideradas. O c alculo de ( x
N
k
+ td
k
), no Passo 3, cuja existencia numa
vizinhan ca de x
N
k
e assegurada pelo Teorema da Fun c ao Implcita, e o ponto
crucial dos metodos. De fato, calcular (x
N
k
+ td
k
) corresponde a resolver
o sistema (11.1.5). Para resolver esse sistema, usa-se qualquer metodo lo-
cal para sistemas n ao lineares. (Para xar ideias suponhamos que usamos
o metodo de Newton.) Agora, (11.1.5) pode n ao ter solu c ao, ou pode ser
que, depois de um n umero razo avel de itera c oes de Newton, n ao tenha sido
possvel chegar a uma solu c ao com uma precis ao adequada. Em ambos casos,
o algoritmo reduz a dire c ao d
k
e recome ca o backtracking. Teoricamente,
este processo necessariamente termina, porque, mais tarde ou mais cedo,
x
N
k
+ td
k
entra na vizinhan ca V
1
. Porem, devido ` a impaciencia em esperar
um n umero sucientemente grande de itera c oes de Newton, ou a problemas
de convergencia desse metodo, e possvel que o tamanho de td
k
chegue a ser
t ao pequeno, que a condi c ao (11.1.3) deixe de ser satisfeita. Nesse caso, o
diagn ostico e que nossa escolha da parti c ao (B
k
N
k
) foi infeliz, no sentido da
vizinhan ca V
1
, onde a fun c ao existe, ser muito pequena. Provavelmente,
neste caso, B
k
e quase-singular. O recomend avel, e tentar uma parti c ao
diferente, mas o sucesso tambem n ao e garantido.
Um problema de ordem pr atica que aparece na resolu c ao do sistema (11.1.5)
e a determina c ao de um bom ponto inicial z
0
para usar Newton, ou o algo-
ritmo escolhido para resolver sistemas n ao lineares neste caso. Muitas vezes,
11.1. RESTRIC

OES DE IGUALDADE 199
tomar z
0
= x
B
k
e sucientemente bom, mas n ao e difcil arquitetar uma es-
trategia melhor. A ideia e seguir a mesma losoa do passo corretor no
metodo preditor-corretor para equa c oes diferenciais. Um ponto inicial sen-
sato na resolu c ao de (11.1.5) e o ponto preditor denido pela aproxima c ao
linear para h(x) = 0 em torno de x
k
:
h

(x
k
)(x x
k
) +h(x
k
) = 0
ou seja,
( B
k
N
k
)
_
z
0
x
B
k
td
k
_
+h(x
k
) = 0,
e ent ao
z
0
= x
B
k
B
1
k
(N
k
d
k
+h(x
k
)) .
O Algoritmo 11.1.1, aplicado ao caso m = 0 (sem restri c oes) e globalmente
convergente, como vimos em um captulo anterior. A garantia dessa con-
vergencia global e fornecida pelas condi c oes (11.1.3) e (11.1.4). Se a mesma
fun c ao estivesse bem denida para todo x
N
IR
nm
a mesma teoria de
convergencia se aplicaria no problema (11.1.1), j a que, globalmente, o prob-
lema consistiria em minimizar, em IR
nm
, a ( unica) fun c ao . Por isso,
se justica exigir, tambem neste caso, as condi c oes (11.1.3) e (11.1.4). No
entanto, a necessidade de mudar de base B
k
em determinadas situa c oes
impede que a an alise de convergencia sem restri c oes possa ser estendida de
maneira trivial ao caso geral. Uma complica c ao adicional e que, estritamente
falando, como a solu c ao de (11.1.5) e obtida por um metodo iterativo, deve-
mos considerar que a avalia c ao de est a sujeita a um erro, cuja inuencia
deveramos contemplar. Uma discuss ao sobre convergencia do metodo GRG
pode ser encontrada em Sargent [181].
Cabe refor car que, essencialmente, cada avalia c ao da fun c ao objetivo do
problema irrestrito (11.1.1) tem o custo da resolu c ao do sistema n ao-linear
(11.1.5). Vemos portanto que os metodos do tipo GRG s ao vantajosos
quando o grau de n ao linearidade das restri c oes e pequeno.
`
A medida que a
n ao linearidade de h cresce, sua ec acia diminui. No entanto, GRG produz
uma seq uencia de pontos factveis para o problema original o que e muito in-
teressante para problemas onde e essencial conservar a factibilidade. Teorias
abrangentes das quais podem ser deduzidas implementa c oes promissoras de
metodos do tipo GRG podem ser encontradas em [142] e [144].
Exerccio 11.1: Simplicar o Algoritmo 11.1.1 para que resolva o problema
Minimizar f(x)
sujeita a Ax = b ,
200 CHAPTER 11. GRADIENTE REDUZIDO GENERALIZADO
onde A IR
mn
, m < n, posto(A) = m , f C
2
(R
n
), sugerindo escolhas
para d
k
e completando todos os detalhes.
Exerccio 11.2: Calcular, no Algoritmo 11.1.1, d
k
usando Newton. Denir,
cuidadosamente, o metodo Newton-GRG com busca linear para o prob-
lema (11.1.1).
11.2 GRG com desigualdades
O tratamento de restri c oes de desigualdade pelas estrategias do tipo GRG
procede atraves da transforma c ao do problema original ` a forma padr ao
Minimizar f(x)
sujeita a h(x) = 0 , l x u,
(11.2.1)
onde f : IR
n
IR, h : IR
n
IR
m
, f, h C
1
(IR
n
). De fato, qualquer
problema de minimiza c ao com restri c oes de igualdade e desigualdade pode
ser levado ` a forma (11.2.1) pela introdu c ao de vari aveis de folga nas restri c oes
do tipo c(x) 0.
Neste captulo introduziremos um metodo do tipo GRG para o problema
(11.2.1). Nossa estrategia ser a similar ` a usada no caso de (11.1.1). Com
efeito, um caso particular de (11.2.1) e quando m = 0. Nesse caso, o prob-
lema consiste em minimizar uma fun c ao com restri c oes de caixa.

E natural,
ent ao, que o algoritmo do tipo GRG aplicado a (11.2.1) tenha como caso par-
ticular um bom algoritmo para minimizar em caixas, quando as restri c oes de
igualdade n ao est ao presentes. Como no caso (11.1.1), o metodo funcionar a
gerando uma seq uencia de itera c oes factveis ( h(x
k
) = 0, l x
k
u).
Em particular, um ponto inicial x
0
factvel ser a necess ario. O problema de
encontrar esse ponto pode ser resolvido mediante a resolu c ao de
Minimizar |h(x)|
2
2
, sujeita a l x u. (11.2.2)
Este e um problema de minimizar em caixas, que, em princpio, poderia ser
resolvido pelo mesmo metodo usado para (11.2.1).
Uma das diculdades adicionais que aparecem devido ` as canaliza c oes em
(11.2.1) e que as vari aveis declaradas dependentes (b asicas) na itera c ao k
n ao podem estar nos limites l
i
ou u
i
. A raz ao para essa restri c ao e que
precisamos garantir que os pontos da forma ((x
N
), x
N
) estejam dentro das
canaliza c oes para pequenas varia c oes de x
N
numa vizinhan ca (V
1
) de x
N
k
. Se
uma vari avel b asica estivesse num limite, qualquer movimento das vari aveis
11.2. GRG COM DESIGUALDADES 201
n ao b asicas, por menor que fosse, poderia levar o ponto fora da caixa.

E
importante observar que essa e exatamente a condi c ao de regularidade do
conjunto = x IR
n
[h(x) = 0, l x u. Com efeito, se as colunas de
h

(x) podem ser particionadas de maneira que (sem perda de generalidade)


h

(x) = (B N), com B n ao singular e l


i
< [x]
i
< u
i
para todo i = 1, . . . , m,
ent ao os gradientes das restri c oes ativas de s ao linearmente independentes
em x. Fica a cargo do leitor provar que, se x e um ponto regular de , ent ao
pode ser encontrada uma parti c ao com as condi c oes desejadas.
Algoritmo 11.2.1 - GRG para o problema padr ao.
Sejam (0, 1) ( 0.1), M > 0 (grande),
min
> 0, e x
0
IR
n
tal que
h(x
0
) = 0, l x
0
u e x
0
regular.
Dado x
k
IR
n
tal que h(x
k
) = 0, l x u, e x
k
regular, vamos supor,
sem perda de generalidade que h

(x
k
) = (B
k
N
k
), com B
k
n ao singular e
l
i
< [x
k
]
i
< u
i
para todo i = 1, . . . , m. Nesse caso, x
k+1
e obtido da seguinte
maneira:
Passo 1. Escrevemos, como sempre, x
k
=
_
x
B
k
x
N
k
_
.
Calcular (x
N
k
) = ( (B
1
k
N
k
)
T
I )f(x
k
). Calcular H
k
, uma aprox-
ima c ao de
2
(x
N
k
) tal que |H
k
| M.
Passo 2. Iniciar o processo de encontrar uma regi ao de conan ca adequada
escolhendo
min
.
Passo 3. Resolver, aproximadamente, o problema quadr atico
Minimizar
1
2
(w x
N
k
)
T
H
k
(w x
N
k
) +(x
N
k
)
T
(w x
N
k
)
sujeita a l x u, |w x
N
k
|

.
(11.2.3)
Se x
N
k
e um ponto estacion ario do problema (11.2.3), parar.
Passo 4. Calcular z = (w) IR
m
, resolvendo o sistema (geralmente n ao
linear), de mm
h(z, w) = 0. (11.2.4)
Se n ao e possvel resolver (11.2.4) (o que certamente acontecer a se esse
sistema n ao tem solu c ao), ou se a solu c ao z encontrada est a fora dos limites
l e u, reduzir (por exemplo, /2), e voltar ao Passo 2.
Passo 5. Se
f(z, w) f(x
B
k
, x
N
k
) +[
1
2
(w x
N
k
)
T
H
k
(w x
N
k
) +(x
N
k
)
T
(w x
N
k
)]
(11.2.5)
denir x
N
k+1
= w, x
B
k+1
= z e dar por terminada a itera c ao k.
202 CHAPTER 11. GRADIENTE REDUZIDO GENERALIZADO
Se (11.2.5) n ao se verica, escolher um novo [0.1, 0.9|w x
N
k
|

] e
retornar ao Passo 3.
Todas as observa c oes feitas sobre o Algoritmo 11.1.1 s ao v alidas, tambem,
para este algoritmo. No Algoritmo 11.1.1 escolhemos, como metodo sem
restri c oes subjacente, um algoritmo de buscas lineares. No Algoritmo 11.2.1
escolhemos um metodo de regi oes de conan ca com norma porque esse
tipo de metodo se ajusta melhor ao formato de uma regi ao em forma de
caixa. A convergencia global desse metodo, quando n ao aparecem as re-
stri c oes h(x) = 0, dando um sentido preciso ` a resolu c ao aproximada
de (11.2.3), foi estudada num captulo anterior deste livro. Naturalmente,
tambem podamos ter usado como algoritmo subjacente no caso do problema
(11.1.1) um metodo de regi oes de conan ca. No entanto, as buscas lineares
s ao mais tradicionais quando se fala de GRG aplicado a minimiza c ao com
restri c oes de igualdade.
Exerccio 11.2: Escrever um algoritmo de gradiente reduzido para o prob-
lema
Minimizar f(x)
sujeita a Ax = b , x 0 ,
onde A IR
mn
, m < n, posto(A) = m , f C
2
(R
n
).
Exerccio 11.3: Escrever um algoritmo de gradiente reduzido para o prob-
lema
Minimizar f(x)
sujeita a Ax = b , l x u,
onde A IR
mn
, m < n, posto(A) = m , f C
2
(R
n
). Estudar o caso em
que f(x) = c
T
x.
Exerccio 11.4: Provar que, se x
N
k
e um ponto estacion ario de (11.2.3),
ent ao x
k
e um ponto estacion ario de (11.2.1).
11.3 Implementa cao computacional
Como comentamos na Se c ao 11.1, o funcionamento dos metodos do tipo
GRG depende fortemente de sua implementa c ao e a fama dos metodos se
deve, provavelmente, ao aproveitamento da experiencia Simplex para pro-
duzir bom software.
11.3. IMPLEMENTAC

AO COMPUTACIONAL 203
Embora sejam difceis de ser implementados, os metodos GRG mereceram a
aten c ao de equipes muito competentes. Atualmente, existem programas de-
senvolvidos com eciencia comprovada. Por exemplo, o pacote GRG2 [128],
desenvolvido em FORTRAN, usa uma implementa c ao robusta de BFGS
para obter a dire c ao d
k
. Este programa tambem possui uma op c ao para
trabalhar com metodos de gradientes conjugados com mem oria limitada, o
que permite lidar com milhares de vari aveis, mas a matriz Jacobiana das re-
stri c oes e armazenada de forma densa, o que limita a resolu c ao a problemas
com, no m aximo, duzentas restri c oes ativas.
Com o objetivo de complementar a atua c ao do pacote GRG2 para prob-
lemas de grande porte, foi desenvolvido recentemente o pacote LSGRG2
[186], utilizando estruturas esparsas para armazenamento e fatora c oes es-
parsas para as bases B
k
. Lasdon [127] apresenta um resumo dos avan cos
relativamente recentes no uso de metodos do tipo GRG, bem como uma
compara c ao dos desempenhos de GRG, programa c ao linear sequencial e pro-
grama c ao quadr atica sequencial.
Finalmente, deve ser mencionado que a estrategia GRG tem, historicamente,
despertado o interesse de pesquisadores devotados a resolver problemas de
controle discreto (ou de controle contnuo por meio de discretiza c ao). Nesses
casos, as vari aveis do problema (11.1.1) s ao as vari aveis de controle junto
com as vari aveis de estado do sistema, as restri c oes h(x) = 0 s ao as equa c oes
de estado e, talvez, restri c oes adicionais, e a caixa l x u representa co-
tas nas vari aveis, tanto de estado como de controle. O atrativo do GRG
para esse tipo de problemas radica em que, por um lado, e essencial neles
a manuten c ao da factibilidade, pois uma solu c ao parcial que n ao satisfa ca
uma equa c ao de estado carece totalmente de sentido. Por outro lado, as
vari aveis de controle s ao vari aveis independentes naturais do problema o
que, provavelmente, garante em muitos casos a necessidade de um n umero
pequeno de mudan cas de bases ao longo de todo o processo. Existem im-
plementa c oes especiais de metodos de tipo GRG para a estrutura particular
de determinados problemas de controle. Um exemplo de metodo desse tipo,
e bibliograa mais ampla, podem ser encontrados em [77].
204 CHAPTER 11. GRADIENTE REDUZIDO GENERALIZADO
Chapter 12
Programa cao quadratica
seq uencial
Um dos procedimentos fundamentais do c alculo numerico consiste na res-
olu c ao de problemas relativamente complicados atraves de uma seq uencia de
problemas mais simples. Dada uma aproxima c ao x
k
da solu c ao do problema
difcil, dene-se um problema f acil que e parecido com o problema origi-
nal, pelo menos numa regi ao pr oxima de x
k
. Freq uentemente, a solu c ao do
problema f acil e uma melhor aproxima c ao da solu c ao do problema colocado
originariamente. A vers ao mais simples dessa ideia e o metodo de New-
ton para achar zeros de fun c oes. Os metodos de programa c ao quadr atica
seq uencial s ao as generaliza c oes do metodo de Newton para o problema
geral de otimiza c ao. Neste problema, onde temos uma fun c ao objetivo e
um conjunto de restri c oes geralmente n ao lineares, a ideia consiste em sub-
stituir, em cada passo, a fun c ao objetivo por uma aproxima c ao quadr atica
e as restri c oes por equa c oes ou inequa c oes lineares. Dessa maneira, o sub-
problema a ser resolvido em cada itera c ao k e um problema de programa c ao
quadr atica que, em compara c ao ao problema original, pode ser consider-
ado simples. Assim como acontece com o metodo de Newton para zeros
de fun c oes, a vers ao mais ingenua da ideia n ao tem boas propriedades de
convergencia global, e modica c oes s ao necess arias para melhorar essas pro-
priedades. Neste captulo procuramos combinar uma vis ao did atica dos
princpios da programa c ao quadr atica seq uencial com uma introdu c ao a um
metodo moderno, onde as principais diculdades da ideia fundamental s ao
contornadas.
205
206 CHAPTER 12. PROGRAMAC

AO QUADR

ATICA SEQ

UENCIAL
12.1 Programa cao quadratica seq uencial pura
Ao longo deste captulo vamos considerar o problema geral de otimiza c ao
na forma padr ao:
Minimizar f(x) sujeita a h(x) = 0, l x u, (12.1.1)
onde f : IR
n
IR, h : IR
n
IR
m
. Os vetores l e u podem ter componentes
ou + respectivamente. Nesses casos, o smbolo deve ser inter-
pretado como <. Sabemos que, de fato, qualquer problema de otimiza c ao
com igualdades e desigualdades pode ser levado ` a forma (12.1.1) atraves da
introdu c ao de vari aveis de folga. Por exemplo, toda restri c ao do tipo
c(x) 0, (12.1.2)
pode ser transformada em
c(x) z = 0, z 0.
Dessa maneira, uma vari avel (z) e acrescentada ao problema para cada re-
stri c ao do tipo (12.1.2), o que pode ser uma desvantagem. Por outro lado,
o tratamento de restri c oes na forma padr ao e geralmente mais simples e
muitos algoritmos ecientes, com software bem desenvolvido, se baseiam na
forma padr ao.
Suponhamos que x
k
e uma aproxima c ao da solu c ao de (12.1.1). Provavel-
mente conseguiremos uma aproxima c ao melhor se, usando a informa c ao
disponvel em x
k
, transformarmos o problema (12.1.1) em um problema
mais simples, e resolvermos este ultimo.
Se, lembrando o paradigma newtoniano, substituirmos a fun c ao objetivo f
por sua melhor aproxima c ao linear numa vizinhan ca de x
k
, e zermos a
mesma coisa com as restri c oes, o problema simples associado a (12.1.1)
ser a
Minimizar f(x
k
) +f(x
k
)
T
(x x
k
)
sujeita a h

(x
k
)(x x
k
) +h(x
k
) = 0, l x u.
(12.1.3)
As substitui c oes efetuadas para chegar a (12.1.3) se baseiam no fato de que,
para fun c oes f e h diferenci aveis, temos f(x) f(x
k
) + f(x
k
)(x x
k
)
e h(x) h(x
k
) + h

(x
k
)(x x
k
). Agora, (12.1.3) e um problema de pro-
grama c ao linear, portanto, metodos baseados nessa aproxima c ao podem ser
chamados de programa c ao linear seq uencial. Um pouco mais de generali-
dade e obtida se, em vez de aproximar f por uma fun c ao linear, o fazemos
12.1. PROGRAMAC

AO QUADR

ATICA SEQ

UENCIAL PURA 207


por uma aproxima c ao quadr atica:
f(x) f(x
k
) +f(x
k
)
T
(x x
k
) +
1
2
(x x
k
)
T
B
k
(x x
k
).
Neste caso, em vez do problema simples (12.1.3), teremos que resolver, em
cada itera c ao k, o seguinte subproblema:
Minimizar f(x
k
) +f(x
k
)
T
(x x
k
) +
1
2
(x x
k
)
T
B
k
(x x
k
)
sujeita a h

(x
k
)(x x
k
) +h(x
k
) = 0, l x u.
(12.1.4)
O subproblema (12.1.4) e um problema de programa c ao quadr atica. Ele e
simples em termos relativos, ou seja, em compara c ao com o problema origi-
nal (12.1.1). (Via de regra, sua resolu c ao eciente pode demandar tecnicas
bastante sosticadas.) Quando usamos a aproxima c ao quadr atica de f neste
contexto, a primeira tenta c ao e denir B
k
=
2
f(x
k
). Veremos mais adi-
ante que, contrariamente a intui c ao, esta n ao e a escolha mais adequada de
B
k
. Pelo momento, no entanto, n ao faremos nenhuma suposi c ao sobre esta
matriz.
Uma das diculdades mais serias para a implementa c ao de algoritmos pr aticos
baseados no subproblema (12.1.4) e que este problema pode n ao ter solu c ao.
Isto acontece em duas situa c oes:
(a) Quando a regi ao factvel de (12.1.4) e vazia. Com efeito, a variedade am
h

(x
k
)(x x
k
) +h(x
k
) = 0 pode n ao ter intersec c ao com a caixa l x u.
Tambem, quando o posto de h

(x
k
) e menor que m e h(x
k
) n ao est a no
espa co coluna de h

(x
k
), a pr opria variedade am e vazia.
(b) Quando a fun c ao objetivo de (12.1.4) n ao e limitada inferiormente na
regi ao factvel. Neste caso, pela continuidade da fun c ao quadr atica, a regi ao
factvel n ao pode ser compacta, em particular, alguma componente de l
i
ou
u
i
deve ser innita.
Um problema menor e que, mesmo quando o subproblema (12.1.4) tem
solu c ao, ela pode n ao ser unica.
Exerccio 12.1: Provar que quando a regi ao factvel e n ao vazia, o subprob-
lema (12.1.4) tem solu c ao. Provar que a solu c ao e unica quando a matriz
B
k
e denida positiva. Exibir exemplos onde a solu c ao e unica mesmo sem
essa hip otese. Considerar o caso l
i
= , u
i
= para todo i. Analisar,
nesse caso, em que situa c oes o problema tem solu c ao e em que situa c oes a
solu c ao e unica. Exibir exemplos.
208 CHAPTER 12. PROGRAMAC

AO QUADR

ATICA SEQ

UENCIAL
Exerccio 12.2: Analisar o metodo iterativo baseado no subproblema (12.1.4)
nos seguintes casos particulares: (a) quando m = n e f(x) e constante; (b)
quando l
i
= , u
i
= para todo i; (c) quando m = 0 (n ao h a restri c oes
h(x) = 0; (d) quando (c) e (d) acontecem juntos. Em cada caso, observar
que o metodo resultante e conhecido. Identicar o metodo e estabelecer
propriedades em cada caso.
12.2 For cando solubilidade do subproblema
Na se c ao anterior vimos que a regi ao factvel de (12.1.4) pode ser vazia, ou
seja, e possvel que n ao exista nenhuma solu c ao do sistema linear
h

(x
k
)(x x
k
) +h(x
k
) = 0
que perten ca ` a caixa l x u. Existem v arias maneiras de contornar esta
diculdade. Em todas elas, o problema deve ser modicado de maneira tal
que, por um lado, o novo subproblema tenha solu c ao e, por outro lado, que
a nova solu c ao coincida com a solu c ao do subproblema (12.1.4) nos casos
em que aquela existia. Ambos pre-requisitos s ao preenchidos da seguinte
maneira. Primeiro, denimos o seguinte subproblema previo:
Minimizar |h

(x
k
)(x x
k
) +h(x
k
)|
2
2
sujeita a l x u .
(12.2.1)
O problema (12.2.1), que consiste em minimizar uma quadr atica convexa
numa caixa, sempre tem solu c ao. (A prova disto ser a deixada como exerccio
para o leitor.) Chamemos x
nor
k
a uma das solu c oes de (12.2.1). Portanto, o
politopo denido pela intersec c ao da caixa l x u com a variedade am
h

(x
k
)(x x
k
) = h

(x
k
)(x
nor
k
x
k
)
e n ao vazio. Claramente, no caso em que a regi ao factvel de (12.1.4) e n ao
vazia, temos que h

(x
k
)(x
nor
k
x
k
) +h(x
k
) = 0.

E natural, em conseq uencia,
substituir o subproblema (12.1.4) pelo seguinte problema de programa c ao
quadr atica:
Minimizar f(x
k
) +f(x
k
)
T
(x x
k
) +
1
2
(x x
k
)
T
B
k
(x x
k
)
sujeita a h

(x
k
)(x x
k
) = h

(x
k
)(x
nor
k
x
k
),
l x u.
(12.2.2)
12.2. FORC ANDO SOLUBILIDADE DO SUBPROBLEMA 209
Pelo exposto, a regi ao factvel de (12.2.2) e n ao vazia. Persiste, porem,
a possibilidade de que a fun c ao objetivo de (12.2.2) seja ilimitada inferior-
mente no seu conjunto de factibilidade. Portanto, para que exista solu c ao do
subproblema de programa c ao quadr atica, este precisa de uma modica c ao
adicional.
A pista para a nova modica c ao vem da seguinte considera c ao: nosso ob-
jetivo nal e resolver (12.1.1), e para isso nos baseamos em que perto de
x
k
, os subproblemas (12.1.4) ou (12.2.2) s ao parecidos com o problema
de otimiza c ao original. Em conseq uencia, mesmo que (12.2.2) tenha uma
solu c ao x, e prov avel que, se |x x
k
| for muito grande, essa solu c ao tenha
pouca rela c ao com boas aproxima c oes para a solu c ao de (12.1.1). Logo,
e justic avel, do ponto de vista dos nossos objetivos ultimos, exigir uma
limita c ao na dist ancia entre a solu c ao de (12.2.2) e a aproxima c ao atual
x
k
. Expressaremos essa necessidade, acrescentando, em (12.2.2), a restri c ao
adicional |xx
k
|

, onde > 0 (o raio da regi ao de conan ca) ser a


ajustado em cada itera c ao k. Assim, nosso subproblema de programa c ao
quadr atica seria:
Minimizar f(x
k
) +f(x
k
)
T
(x x
k
) +
1
2
(x x
k
)
T
B
k
(x x
k
)
sujeita a h

(x
k
)(x x
k
) = h

(x
k
)(x
nor
k
x
k
),
l x u, |x x
k
|

.
(12.2.3)
Infelizmente, a imposi c ao da restri c ao limitante |x x
k
|

em (12.2.3)
pode ser incompatvel com a deni c ao de x
nor
k
em (12.2.1). De fato, com
essa deni c ao, poderia ser que o problema (12.2.3) fosse infactvel. Portanto,
se queremos a limita c ao de |x x
k
|

em (12.2.3), precisamos modicar a


deni c ao de x
nor
k
. Para tanto, vamos redenir x
nor
k
como uma solu c ao de
Minimizar |h

(x
k
)(x x
k
) +h(x
k
)|
2
2
sujeita a l x u, |x x
k
|

0.8.
(12.2.4)
A restri c ao |x x
k
|

0.8 em (12.2.4) obriga a regi ao factvel do prob-


lema (12.2.3) a ser n ao vazia. Isto tambem seria conseguido se, em vez dessa
restri c ao tivessemos colocado |x x
k
|

r para qualquer r [0, 1].


A escolha r = 0.8 parece satisfazer simultaneamente os requisitos de que
|h

(x
k
)(xx
k
)+h(x
k
)|
2
2
seja sucientemente pequeno, e que a regi ao factvel
de (12.2.3) seja sucientemente ampla para permitir um decrescimo de sua
fun c ao objetivo.
Do ponto de vista da existencia e limita c ao da solu c ao do subproblema a
escolha da norma | |

n ao tem nenhum papel. Essa escolha se justica


210 CHAPTER 12. PROGRAMAC

AO QUADR

ATICA SEQ

UENCIAL
porque, com ela, os subproblemas (12.2.4) e (12.2.3) continuam sendo de pro-
grama c ao quadr atica, o que n ao aconteceria, por exemplo, se escolhessemos
a norma euclidiana para limitar a dist ancia entre x e x
k
.
Exerccio 12.3: Provar que (12.2.1) e (12.2.4) sempre tem solu c ao. Provar
que, mesmo quando a solu c ao n ao e unica, o vetor h(x
nor
k
) independe da
solu c ao escolhida x
nor
k
.
Exerccio 12.4: Analisar o par de subproblemas (12.2.4)(12.2.3) nos
seguintes casos: (a) todos os l
i
s ao e todos os u
i
s ao +; (b) n ao h a
restri c oes h(x) = 0; (c) a fun c ao f(x) e constante; (d) as restri c oes h(x) = 0
s ao lineares.
Exerccio 12.5: Analisar os subproblemas (12.2.4)(12.2.3) substituindo
| |

por | |
2
. Considerar x
nor
k
como uma fun c ao de e desenhar uma
trajet oria tpica x
nor
k
() para [0, ). Interpretar geometricamente.
Exerccio 12.6: Estabelecer rigorosamente em que sentido a solu c ao de
(12.2.4)(12.2.3) coincide com a solu c ao de (12.1.4) quando este problema e
sol uvel.
Exerccio 12.7: Refazer os argumentos das Se c oes 12.1 e 12.2 para o prob-
lema de otimiza c ao denido na forma
Minimizar f(x)
sujeita a h(x) 0,
onde h : IR
n
IR
m
. Refazer, mais uma vez, os argumentos para considerar
misturas de restri c oes de igualdade e desigualdade.
12.3 A fun cao de merito
A argumenta c ao das se c oes 12.1 e 12.2 parece consolidar a seguinte forma
para um algoritmo de programa c ao quadr atica seq uencial destinado a re-
solver o problema (12.1.1):
Algoritmo 12.3.1
Suponhamos que x
0
IR
n
(l x u) e uma aproxima c ao inicial da solu c ao
de (12.1.1). Se x
k
(k = 0, 1, 2, . . .) e a aproxima c ao obtida na kesima
12.3. A FUNC

AO DE M

ERITO 211
itera c ao (l x
k
u), B
k
IR
nn
e uma matriz simetrica e > 0, ent ao
x
k+1
e obtida da seguinte maneira:
Passo 1. Resolver (12.2.4) e (12.2.3).
Passo 2. Se x, a solu c ao obtida no Passo 1, e sucientemente boa em
rela c ao a x
k
, ent ao denir x
k+1
= x e terminar a itera c ao. Caso contr ario,
diminuir e retornar ao Passo 1.
A principal quest ao que o Algoritmo 12.3.1 deixa em aberto e: que sig-
nica sucientemente boa? Se n ao houvesse restri c oes do tipo h(x) = 0,
o unico criterio para julgar se x e melhor que x
k
seria o valor de f( x) em
rela c ao ao valor de f(x
k
). Por outro lado, se a fun c ao objetivo de (12.1.1)
fosse constante, o criterio deveria estar baseado em alguma norma de h(x).
De um modo geral, nas itera c oes destinadas a resolver (12.1.1) existem dois
objetivos a serem melhorados simultaneamente: a factibilidade (medida por
|h(x)|) e a otimalidade (medida por f(x)). Claramente, se f( x) f(x
k
) e
|h( x)| |h(x
k
)| devemos decidir que x e melhor que x
k
em rela c ao ao
objetivo de resolver (12.1.1). A situa c ao n ao e clara quando
f( x) < f(x
k
) e |h( x)| > |h(x
k
)|
ou
f( x) > f(x
k
) e |h( x)| < |h(x
k
)|.
No primeiro caso nos perguntamos: ser a que o ganho em otimalidade com-
pensa a perda de factibilidade? No segundo: o ganho em factibilidade com-
pensa o aumento de f?
Uma fun c ao de merito combina f(x) e h(x) de maneira a permitir possveis
respostas ` as perguntas acima. Elementos adicionais para a constru c ao de
uma fun c ao de merito vem de considerar as condi c oes de otimalidade do
problema (12.1.1). Denimos, como e habitual, o Lagrangiano, (x, ) por
(x, ) = f(x) +h(x)
T
(12.3.1)
para todo x IR
n
, IR
m
. As condi c oes necess arias de primeira ordem
(Karush-Kuhn-Tucker) estabelecem que um minimizador local x junto com
seu vetor de multiplicadores deve satisfazer:
[
x
(x, )]
i
= 0, [
x
(x, )]
i
0, [
x
(x, )]
i
0 (12.3.2)
se l
i
< [x]
i
< u
i
, [x]
i
= l
i
ou [x]
i
= u
i
respectivamente. Alem disso, a
factibilidade da solu c ao implica que

(x, ) = h(x) = 0. (12.3.3)


212 CHAPTER 12. PROGRAMAC

AO QUADR

ATICA SEQ

UENCIAL
As condi c oes (12.3.2) e (12.3.3) s ao satisfeitas se o par (x, ) e um mini-
mizador de (x, ) para l x u.
Exerccio 12.8: Estabelecer rigorosamente as condi c oes nas quais valem
(12.3.2) e (12.3.3).
As considera c oes acima parecem sugerir que (x, ) denida em (12.3.1) seria
uma fun c ao de merito adequada, porem, envolvendo as duas vari aveis, x e
. No entanto, podemos observar que, se h(x) ,= 0, valores de (x, ) muito
grandes e negativos podem ser obtidos apenas variando , por exemplo,
fazendo = h(x) para muito grande (embora, talvez, limitado). Isso
signica que, se us assemos o Algoritmo 12.3.1 com um criterio de aceita c ao
baseado na fun c ao de merito , a solu c ao x de (12.2.4)-(12.2.3) sempre seria
aceita se apenas tom assemos a providencia de escolher de maneira oportuna,
as novas estimativas dos multiplicadores.
Examinemos, pois, uma segunda possibilidade, que contempla a fun c ao ,
combinando-a com uma segunda fun c ao que se preocupa, fundamental-
mente, com a factibilidade da itera c ao. Esta segunda fun c ao e, simples-
mente,
(x) =
1
2
|h(x)|
2
. (12.3.4)
A combina c ao aludida acima e uma combina c ao convexa de e . Dado
[0, 1], denimos
(x, , ) = (x, ) + (1 )(x). (12.3.5)
A conan ca que depositamos em como fun c ao de merito se baseia no
seguinte: se for necess ario (o que ser a estabelecido precisamente mais
adiante) ser a escolhido perto de 0, de maneira que ser a dominante na
combina c ao (12.3.5). Assim as componentes de h(x) ser ao obrigatoriamente
empurradas para valores pequenos. Agora, para valores pequenos de |h(x)|,
se a aproxima c ao dos multiplicadores e mantida limitada, o efeito redutor
devido a varia c ao destes, de que falamos antes, ser a desprezvel. Portanto,
a diminui c ao do primeiro termo da combina c ao convexa ser a devido ` a
diminui c ao de f.
Essas considera c oes nos levam a especicar um pouco mais o Algoritmo
12.3.1, agora baseado na fun c ao de merito .
Algoritmo 12.3.2
Suponhamos que L > 0 (grande), x
0
IR
n
(l x u) e uma aproxima c ao
inicial da solu c ao de (12.1.1) e
0
IR
m
(|
0
| L) e uma aproxima c ao
12.4. DECR

ESCIMO SUFICIENTE 213


inicial dos multiplicadores de Lagrange. Se x
k
,
k
(k = 0, 1, 2, . . .) s ao as
aproxima c oes obtidas na kesima itera c ao (l x
k
u, |
k
| L), B
k

IR
nn
e uma matriz simetrica e > 0, ent ao x
k+1
e obtida da seguinte
maneira:
Passo 1. Resolver (12.2.4) e (12.2.3).
Passo 2. Escolher um valor adequado para [0, 1] e estimar novos multi-
plicadores

(|

| L).
Passo 3. Se x, a solu c ao obtida no Passo 1 e tal que
( x,

, ) (x
k
,
k
, ), (12.3.6)
denir x
k+1
= x,
k+1
=

e terminar a itera c ao. Caso contr ario, diminuir
e retornar ao Passo 1.
12.4 Decrescimo suciente
No Algoritmo 12.3.2 ainda existem v arios aspectos n ao denidos:
(a) A escolha dos novos multiplicadores

no Passo 2.
(b) A determina c ao do par ametro , no mesmo passo.
(c) O signicado preciso da express ao no Passo 3.
(d) A escolha do valor inicial em cada itera c ao e a forma de diminuir
, quando isso e necess ario.
(e) A escolha da matriz simetrica B
k
.
A decis ao sobre a escolha de B
k
ser a adiada para uma se c ao posterior. O
monitoramento do raio de conan ca n ao oferece grandes diculdades
conceituais. Nosso procedimento, neste caso, e o seguinte: estabelece-se a
priori (independentemente do n umero da itera c ao k) um raio de conan ca
mnimo inicial
min
. O primeiro testado ao come car a itera c ao k deve ser
maior ou igual a
min
. Isso possibilita que, ao menos no come co, itera c oes
sucientemente arrojadas sejam efetuadas, evitando passos excessivamente
curtos. Agora, quando precisamos diminuir no Passo 3 (devido a fun c ao
de merito n ao ter decrescido sucientemente), determinamos o novo no
intervalo [0.1, 0.9]. Naturalmente, fazer Novo = /2 e uma escolha
admissvel.
214 CHAPTER 12. PROGRAMAC

AO QUADR

ATICA SEQ

UENCIAL
O vetor de multiplicadores

pode ser escolhido de maneira totalmente ar-
bitr aria, sujeito ` a restri c ao |

| L. Existem, no entanto, escolhas mais


ecientes que outras, como veremos numa se c ao posterior. Por exemplo,
uma boa ideia e escolher esse vetor de multiplicadores como o pr oprio ve-
tor de multiplicadores associado ` a condi c ao de otimalidade do subproblema
(12.2.3). Mas o leitor pode aproveitar a liberdade que e admitida na escolha
de

para, numa primeira leitura deste captulo, supor que

= 0. De fato,
esta e uma escolha admissvel e a maior parte da teoria funciona com ela.
Exerccio 12.9: O leitor vericar a que o procedimento indicado para diminuir
pode levar, se implementado de maneira ingenua, a repetir de maneira
desnecess aria a resolu c ao de problemas de programa c ao quadr atica. Efetuar
as modica c oes necess arias no Algoritmo 12.3.2 para que essa repeti c ao seja
claramente evitada.
Exerccio 12.10: A deni c ao da fun c ao foi motivada na Se c ao 12.3.
Refazer, na medida do possvel, essa motiva c ao esquecendo que os multipli-
cadores de Lagrange existem (ou seja, supondo que

0). Analisar quais
argumentos podem ser reutilizados e quais n ao.
Na Se c ao 12.5 veremos como calcular um par ametro de penalidade ade-
quado para cada itera c ao. Nesta se c ao, nos limitaremos a denir signicado
do smbolo em (12.3.6). Em nosso jarg ao, a b signica a e sucien-
temente menor que b, ou a e menor que algo claramente menor que b.
Para especicar o signicado de no caso de (12.3.6) precisamos de algu-
mas considera c oes gerais sobre expans oes de Taylor e, em particular, sobre
expans oes de f, h e . Vamos supor que tanto f como h tem derivadas
segundas contnuas para todo x IR
n
. (Esta e uma suposi c ao desnecessari-
amente forte para nossos objetivos, mas sucientemente simples para fazer
claro o raciocnio.) Ao mesmo tempo, as dedu c oes ser ao mais legveis se
usamos, livremente, a nota c ao O(.). Lembramos que f = O(g) signica
que existe uma constante c, independente da vari avel independente, tal que
f cg. Nosso objetivo agora e mostrar que a fun c ao de merito se aprox-
ima bem por uma quadr atica nas vari aveis x e . O leitor interessado em
xar ideias, pode identicar x com x
k
e s com x x
k
na seguinte seq uencia
de limitantes.
Pelo desenvolvimento de Taylor de h, temos que
(x+s,

)(x+s, ) = h(x+s)
T
(

) = [h(x)+h

(x)s]
T
(

)+O(|s|
2
).
(12.4.1)
12.4. DECR

ESCIMO SUFICIENTE 215


Pelo desenvolvimento de Taylor de f e h e supondo que as matrizes B
k
est ao
uniformemente limitadas, temos:
(x +s, ) (x, ) = f(x +s) +h(x +s)
T
[f(x) +h(x)
T
]
= f(x+s)f(x)+[h(x+s)h(x)]
T
= f(x)
T
s+
1
2
s
T
B
k
s+[h

(x)s]
T
+O(|s|
2
)
= [f(x)+h

(x)
T
]
T
s+
1
2
s
T
B
k
s+O(|s|
2
) =
x
(x, )
T
s+
1
2
s
T
B
k
s+O(|s|
2
)
(12.4.2)
Somando membro a membro (12.4.1) e (12.4.2), obtemos:
(x+s,

)(x, ) =
x
(x, )
T
s+
1
2
s
T
B
k
s+[h(x)+h

(x)s]
T
(

)+O(|s|
2
).
(12.4.3)
Por outro lado, pelo desenvolvimento de Taylor de h,
h(x +s) = h(x) +h

(x)s +O(|s|
2
),
portanto,
|h(x +s)|
2
2
= |h(x) +h

(x)s|
2
2
+O(|s|
2
),
e, pela deni c ao de ,
(x +s) (x) =
1
2
|h(x) +h

(x)s|
2
2

1
2
|h(x)|
2
2
+O(|s|
2
). (12.4.4)
Multiplicando (12.4.3) por , (12.4.4) por 1, e somando membro a membro
as duas express oes resultantes, obtemos:
(x, , ) (x +s,

, ) = Pred(x, s, ,

, B
k
, ) +O(|s|
2
), (12.4.5)
onde
Pred(x, s, ,

, B
k
, )
= [
x
(x, )
T
s +
1
2
s
T
B
k
s + [h(x) +h

(x)s]
T
(

)]
+(1 )[
1
2
|h(x) +h

(x)s|
2
2

1
2
+|h(x)|
2
2
]. (12.4.6)
Portanto, podemos considerar que a express ao Pred e uma boa aproxima c ao
do decrescimo (x, , )(x+s,

, ) na fun c ao de merito . Da a denom-


ina c ao Pred, abreviatura de predicted reduction. Brevemente, (12.4.5)
signica que (x, , ) (x +s,

, ) coincide com Pred para s = 0 junto
com suas primeiras derivadas. Portanto, pelo menos quando |s| e pequena,
216 CHAPTER 12. PROGRAMAC

AO QUADR

ATICA SEQ

UENCIAL
um decrescimo da ordem de Pred na fun c ao de merito e de se esperar.
Adiando, por um momento, a prova de que Pred e, efetivamente, positivo, e
adotando uma postura conservadora, diremos que ( x,

, ) (x
k
,
k
, )
quando
(x
k
,
k
, ) ( x,

, ) 0.1Pred(x
k
, x x
k
,
k
,

, B
k
, ). (12.4.7)
Incorporando o criterio de aceita c ao (12.4.7), denimos agora uma modi-
ca c ao do Algoritmo 12.3.2, com o qual nalizamos esta se c ao. O Algoritmo
12.4.1 e identico ao Algoritmo 12.3.2, com o criterio impreciso (12.3.6) sub-
stitudo por (12.4.7).
Algoritmo 12.4.1
Suponhamos que x
0
IR
n
(l x u) e uma aproxima c ao inicial da solu c ao
de (12.1.1) e
0
IR
m
, |
0
| L e uma aproxima c ao inicial dos multipli-
cadores de Lagrange. Se x
k
,
k
(k = 0, 1, 2, . . .) s ao as aproxima c oes obtidas
na kesima itera c ao (l x
k
u, |
k
| L), B
k
IR
nn
e uma matriz
simetrica e > 0, ent ao x
k+1
e obtida da seguinte maneira:
Passo 1. Resolver (12.2.4) e (12.2.3).
Passo 2. Escolher um valor adequado para [0, 1] e estimar novos multi-
plicadores

(|

| L).
Passo 3. Se x, a solu c ao obtida no Passo 1, satisfaz (12.4.7), denir x
k+1
=
x,
k+1
=

e terminar a itera c ao. Caso contr ario, diminuir e retornar ao
Passo 1.
12.5 O parametro de penalidade
Nesta se c ao discutiremos a escolha do par ametro de penalidade , no Passo
2 do nosso algoritmo b asico. A denomina c ao par ametro de penalidade se
justica, depois de observar que
(x, , ) = [(x, ) +
1

(x)].
Portanto, exigir decrescimo de (x, , ) equivale a exigir decrescimo da
fun c ao

(x, , ) = (x, ) +(x),


com = (1 )/. A fun c ao

e um Lagrangiano aumentado, onde e o
par ametro de penalidade cl assico. Assim, corresponde a 0 e
12.5. O PAR

AMETRO DE PENALIDADE 217


0 corresponde a 1. Pelos mesmos motivos, nos sentiremos livres
para chamar Lagrangiano aumentado tambem ` a fun c ao de merito .
Na se c ao anterior observamos que, para que a condi c ao (12.4.7) possa ser
chamada com justi ca de decrescimo suciente era necess ario que Pred
fosse maior que zero. No entanto, a resolu c ao dos subproblemas (12.2.4) e
(12.2.3) implica necessariamente que
|h(x
k
)|
2
2
|h(x
k
) +h

(x
k
)( x x
k
)|
2
2
0.
Portanto, da deni c ao de Pred surge que, para = 0,
Pred(x
k
, x x
k
,
k
,

, B
k
, ) 0.
Ou seja, Pred e uma combina c ao convexa do tipo a + (1 )b onde, nec-
essariamente, b 0. No entanto, o elemento a dessa combina c ao convexa,
n ao e necessariamente positivo. Para que Pred seja, garantidamente, maior
ou igual a 0, e maior que zero quando b > 0, vamos exigir que
Pred(x
k
, x x
k
,
k
,

, B
k
, )
1
2
[|h(x
k
)|
2
2
|h(x
k
) +h

(x
k
)( x x
k
)|
2
2
].
(12.5.1)
Como (12.5.1) vale para = 0, resulta que podemos denir
sup
0 por

sup
= sup [0, 1] tais que (12.5.1) se verica. (12.5.2)
Se, no Passo 2 do algoritmo, escolhermos sempre
sup
, ent ao, por
(12.5.1), a condi c ao (12.4.7) implicar a descida simples da fun c ao de merito.
(( x,

, ) (x
k
,
k
, )). Como valores maiores que
sup
n ao satisfazem
(12.5.1) parece bastante sensato, impor a condi c ao

sup
(12.5.3)
para a escolha de no Passo 2. No entanto, o requisito (12.5.3) deixa ainda
bastante liberdade, quando
sup
> 0. Outras considera c oes ser ao necess arias
para fazer uma elei c ao adequada, dentro das possveis.
O algoritmo baseado na fun c ao de merito poderia ser interpretado como
um metodo destinado a minimizar a sujeita apenas as restri c oes de canal-
iza c ao l x u. Esta interpreta c ao parece ser compatvel com o conceito
generico do signicado de uma fun c ao de merito. No entanto, neste caso, tal
interpreta c ao n ao parece totalmente adequada, devido ` a fun c ao mudar de
uma itera c ao para outra, de acordo com a escolha de . Com efeito, estab-
elece pesos relativos para a factibilidade e a otimalidade no algoritmo (com
218 CHAPTER 12. PROGRAMAC

AO QUADR

ATICA SEQ

UENCIAL
perto de 0 o metodo privilegia factibilidade e com perto de 1 privilegia
otimalidade). Grandes varia c oes de de uma itera c ao para outra pareceriam
indicar que o metodo n ao consegue decidir qual e o peso adequado para cada
um dos objetivos que s ao visados. Essa e uma motiva c ao para limitar, pelo
menos assintoticamente, as varia c oes de . A maneira mais obvia de for car
uma varia c ao limitada de , consiste em impor, alem da condi c ao (12.5.3),
a seguinte:

k1
, (12.5.4)
onde, para todo k = 0, 1, 2, . . .,
k
e o valor de escolhido na ultima passada
pelo Passo 2. Juntando as condi c oes (12.5.3) e (12.5.4), teremos que a
seq uencia
k
e mon otona n ao crescente e positiva, portanto convergente.
Isso implicaria que, a longo prazo, a fun c ao de merito seria, essencialmente,
a mesma, e a interpreta c ao criticada acima passaria a ser v alida.
No entanto, a escolha mon otona de tambem n ao e plenamente satisfat oria.
Lembrando que estabelece uma pondera c ao entre factibilidade e otimal-
idade, seria possvel que, sobretudo nas primeiras itera c oes, valores muito
pequenos de fossem impostos por (12.5.3) devido ` a necessidade de refor car
factibilidade, e que esses valores muito pequenos fossem herdados por to-
das as itera c oes posteriores, onde valores maiores seriam toler aveis. Em
outras palavras, a condi c ao (12.5.4) carrega demasiadamente a hist oria de
diculdades passadas do algoritmo, que podem n ao existir mais na itera c ao
atual. Essas considera c oes nos levam ` a deni c ao da seguinte estrategia n ao
mon otona para : escolhe-se, independentemente de k um n umero N > 0
que representar a o grau de n ao-monotonicidade de
k
. N = 0 corre-
sponder a ` a escolha mon otona, baseada em (12.5.4), e valores grandes de N
aproximar ao de
sup
. Denimos

min
k
= min 1,
0
, . . . ,
k1
, (12.5.5)

grande
k
= (1 + (N/k)
1.1
)
min
k
, (12.5.6)
e, nalmente,
= min
grande
k
,
sup
. (12.5.7)
Apesar de (12.5.5)(12.5.7) n ao implicar monotonia de
k
, essa escolha
implica convergencia da seq uencia
k
(ver Exerccio 12.13), o que, do ponto
de vista da interpreta c ao da fun c ao de merito, e igualmente satisfat orio.
Como zemos nas se c oes anteriores, a discuss ao realizada aqui nos permite
especicar um pouco mais o algoritmo principal.
Algoritmo 12.5.1
12.6. O ALGORITMO EST

A BEM DEFINIDO 219


Suponhamos que x
0
IR
n
(l x u) e uma aproxima c ao inicial da solu c ao
de (12.1.1) e
0
IR
m
, |
0
| L e uma aproxima c ao inicial dos multipli-
cadores de Lagrange, N,
min
> 0. Se x
k
,
k
(k = 0, 1, 2, . . .) s ao as aprox-
ima c oes obtidas na kesima itera c ao (l x
k
u, |
k
| L), B
k
IR
nn
e
uma matriz simetrica e
min
, ent ao x
k+1
e obtida da seguinte maneira:
Passo 1. Resolver (12.2.4) e (12.2.3).
Passo 2. Escoher [0, 1] usando (12.5.5)(12.5.7) e estimar novos multi-
plicadores

(|

| L).
Passo 3. Se x, a solu c ao obtida no Passo 1, satisfaz (12.4.7), denir x
k+1
=
x,
k+1
=

,
k
= e terminar a itera c ao. Caso contr ario, diminuir , (por
exemplo, dividir por 2) e retornar ao Passo 1.
Exerccio 12.11: Em que caso o unico par ametro de penalidade que verca
Pred 0 e = 0?
Exerccio 12.12: Obter uma f ormula explcita para
sup
.
Exerccio 12.13: Provar que a seq uencia
k
denida por (12.5.5)(12.5.7),
e convergente.
12.6 O algoritmo esta bem denido
O metodo apresentado ate aqui e muito an alogo ao introduzido em [98].
A diferen ca fundamental e que em [98], visando aplica c ao a problemas
de grande porte, os subproblemas (12.2.4) e (12.2.3) s ao resolvidos ape-
nas aproximadamente, com criterios adequados para a precis ao da sua
resolu c ao. Para simplicar a exposi c ao, apresentamos neste captulo o algo-
ritmo supondo solu c ao exata de (12.2.4) e (12.2.3). A an alise de convergencia
do algoritmo e complicada, e daremos apenas indica c oes sobre a mesma na
Se c ao 12.7. Nesta se c ao, provaremos que o algoritmo est a bem denido,
isto e, que sob hip oteses adequadas, que incluem o fato de x
k
ainda n ao ser
uma solu c ao, pode-se encontrar x
k+1
em tempo nito. Em outras palavras,
mostraremos que o ciclo atraves dos passos 1, 2 e 3 do algoritmo e nito.
Provaremos que o algoritmo est a bem denido em duas situa c oes:
(a) x
k
n ao e um ponto estacion ario do problema
Minimizar (x) sujeita a x u; (12.6.1)
(b) x
k
e um ponto factvel, regular e n ao estacion ario de (12.1.1).
220 CHAPTER 12. PROGRAMAC

AO QUADR

ATICA SEQ

UENCIAL
Assim, cam as seguintes situa c oes em que o algoritmo n ao est a bem denido
e que, portanto, devem ser identicadas antes de come car o ciclo principal
de cada itera c ao para evitar loops innitos:
(c) x
k
e um ponto estacion ario de (12.6.1) mas h(x
k
) ,= 0. (Lembremos que,
por constru c ao, l x
k
u para todo k.
(d) x
k
e um ponto factvel de (12.1.1) mas n ao e regular (os gradientes das
restri c oes ativas em x
k
, incluindo as canaliza c oes, s ao linearmente depen-
dentes).
(e) x
k
e um ponto regular e estacion ario de (12.1.1).
Nessas situa c oes, o algoritmo deveria parar. Delas, apenas (e) pode ser
considerada um sucesso. A situa c ao (c) representa, claramente, um fra-
casso. Uma situa c ao duvidosa e (d), j a que um ponto n ao regular de
(12.1.1) poderia ser minimizador global de (12.1.1). N ao entraremos nesse
tipo de sutileza.
Come caremos provando que o algoritmo est a bem denido quando x
k
n ao e
um ponto estacion ario de (12.6.1).
Teorema 12.6.1 - Boa deni c ao em pontos n ao factveis
Se x
k
n ao e um ponto estacion ario de (12.6.1), ent ao o Algoritmo 12.5.1
calcula um novo ponto x
k+1
atraves de uma quantidade nita de passagens
pelos passos 13.
Prova: Denimos
M(x) =
1
2
|h

(x
k
)(x x
k
) +h(x
k
)|
2
2
.
Claramente, (x
k
) = M(x
k
) = h

(x
k
)
T
h(x
k
), portanto x
k
n ao e ponto
estacion ario de M(x) sujeita a l x u. Portanto, existe uma dire c ao
factvel e de descida para M na caixa l x u. Seja, pois, d IR
n
tal que
|d|

= 1 e M(x
k
)
T
d < 0.
A fun c ao (t) = M(x
k
+ td) e uma par abola convexa tal que

(0) =
d
T
M(x
k
) < 0. Se a par abola e estritamente convexa (coeciente de se-
gunda ordem estritamente positivo), admite um minimizador irrestrito

t > 0.
Propriedades elementares das par abolas garantem, nesse caso, que
(t) (0) +
1
2

(0)t (12.6.2)
para todo t [0,

t]. Se (t) n ao e estritamente convexa, ent ao e uma reta, e


(12.6.2) se satisfaz trivialmente para todo t 0.
12.6. O ALGORITMO EST

A BEM DEFINIDO 221


Seja

t o m aximo dos t positvos tais que l x
k
+ td u e

t = min

t,

t.
Naturalmente, (12.6.2) vale para todo t [0,

t]. Mais ainda, como |d|

= 1,
temos que t = |td|

e, em conseq uencia, (12.6.2) implica a seguinte proposi c ao:


Para todo

t/0.8 =

, existe x tal que l x u e |x x
k
|

0.8
vericando
M(x) M(0) c,
onde c = 0.4

(0) > 0.
Portanto, para

, escrevendo x
nor
= x
nor
(), temos que
1
2
[|h(x
k
)|
2
2
|h(x
k
) +h

(x
k
)(x
nor
() x
k
)|
2
2
] c.
Logo, escrevendo x = x(), deduzimos, pela forma do subproblema (12.2.3),
que
1
2
[|h(x
k
)|
2
2
|h(x
k
) +h

(x
k
)( x() x
k
)|
2
2
] c.
Portanto, de (12.5.1) inferimos que, para todo (0,

],
Pred(x
k
, x() x
k
,
k
,

, B
k
, )
c
2
> 0. (12.6.3)
De (12.4.5) e (12.6.3) deduzimos que
lim
0

(x
k
) ( x()
Pred(x
k
, x() x
k
,
k
,

, B
k
, )
1

= 0.
Este limite implica que, para sucientemente pequeno o teste (12.4.7)
e satisfeito. Portanto, a itera c ao termina depois de um n umero nito de
redu c oes de . QED
Nosso pr oximo passo consiste em provar que, se x
k
e um ponto factvel, reg-
ular e n ao estacion ario de (12.1.1), ent ao a itera c ao denida pelo algoritmo
12.5.1 tambem termina em tempo nito.
Teorema 12.6.2 - Boa deni c ao em pontos factveis
Suponhamos que x
k
e um ponto factvel, regular e n ao estacion ario de (12.1.1).
Ent ao o Algoritmo 12.5.1 calcula um novo ponto x
k+1
atraves de uma quan-
tidade nita de passagens pelos passos 13.
Prova: Denimos, analogamente ao Teorema 12.6.1,
Q(x) =
1
2
(x x
k
)
T
B
k
(x x
k
) +f(x
k
)(x x
k
) +f(x
k
).
222 CHAPTER 12. PROGRAMAC

AO QUADR

ATICA SEQ

UENCIAL
Consideramos o problema de programa c ao quadr atica
Minimizar Q(x), sujeita a h

(x
k
)(x x
k
) = 0, l x u. (12.6.4)
Claramente, x
k
e um ponto factvel e regular do problema (12.6.4). Mais
ainda, as condi c oes de otimalidade de (12.1.1) e de (12.6.4) em x
k
s ao
identicas. Como, por hip otese, elas n ao s ao cumpridas para (12.1.1), segue-
se que x
k
n ao e um ponto estacion ario de (12.6.4). Portanto, existe uma
dire c ao factvel, unit aria (|d|

= 1) e de descida para o problema (12.6.4).


Logo, Q(x
k
)
T
d < 0. Denimos
(t) = Q(x
k
+td).
Pelo mesmo raciocnio do Teorema 12.6.1, podemos garantir que existem

t > 0 e c > 0 tais que para todo t [0,

t], x
k
+td e factvel para o problema
(12.6.4) e
Q(x
k
) Q(x
k
+td) ct.
Portanto, como |td|

= t, podemos armar que, para todo suciente-


mente pequeno, digamos

, existe um ponto x factvel para (12.6.4)
tal que
Q(x
k
) Q( x) c.
De acordo com a deni c ao de x = x() no subproblema (12.2.3), isto implica
que
Q(x
k
) Q( x) c. (12.6.5)
Agora, como x x
k
est a, neste caso, no n ucleo de h

(x
k
) e h(x
k
) = 0, a
desigualdade (12.6.5) implica que
[
x
(x
k
,
k
)
T
( x x
k
) +
1
2
( x x
k
)
T
B
k
( x x
k
)
+[h(x
k
) +h

(x
k
)( x x
k
)]
T
(


k
)] c + > 0.
Logo, pela deni c ao de Pred temos que
Pred(x
k
, x x
k
,
k
,

, B
k
, ) c > 0.
Agora, como h(x
k
) = h

(x
k
)( x x
k
) = 0, temos que todos os (0, 1]
satisfazem o teste (12.5.1) para

. Isto implica que, para esses valores
de , o par ametro n ao precisa ser reduzido. Portanto, existe

> 0 tal
que
Pred(x
k
, x x
k
,
k
,

, B
k
, )

c > 0 (12.6.6)
12.7. A PROVA DE CONVERG

ENCIA GLOBAL 223


para todo (0,

]. Como no caso do Teorema 12.6.1, segue que
lim
0

(x
k
) ( x()
Pred(x
k
, x() x
k
,
k
,

, B
k
, )
1

= 0.
Logo, para sucientemente pequeno o teste (12.4.7) e satisfeito e, assim,
a itera c ao termina depois de um n umero nito de redu c oes de . QED
12.7 A prova de convergencia global

E comum que a prova da convergencia global de um algoritmo esteja muito


relacionada com a prova de boa deni c ao. Isto e bastante natural j a que,
na boa deni c ao, provamos que os pontos onde o algoritmo deve parar tem
determinadas caractersticas, e nos teoremas de convergencia, geralmente,
provamos que os pontos limite da seq uencia gerada tem essas mesmas car-
actersticas. Logo, os teoremas de convergencia dizem sobre o limite a
mesma coisa que os resultados de boa deni c ao dizem sobre os iterandos.
Muitas vezes, as provas de convergencia global reproduzem, com variadas
complica c oes analticas, as ideias usadas para provar boa deni c ao.
Nesta se c ao procuraremos dar as ideias essenciais da prova de convergencia
do Algoritmo 12.5.1. Os argumentos completos podem ser encontrados em
[98].
A prova tem duas partes, que correspondem aos teoremas 12.6.1 e 12.6.2.
Nos dois casos usa-se como hip otese a seq uencia gerada estar totalmente
contida em um compacto de IR
n
. Evidentemente, quando as cotas l e u s ao
nitas, esta e uma hip otese perfeitamente razo avel. Na primeira parte se
prova que todos os pontos limites de uma seq uencia gerada pelo algoritmo
s ao pontos estacion arios de (12.6.1). Para demonstrar esse fato, passa-se
por um processo compar avel ao usado para provar o Teorema 12.6.1:
(a) Prova-se que, se x

n ao e um ponto estacion ario de (12.6.1), ent ao,


nos iterandos x
k
pr oximos a x

, a quantidade Pred, pensada como fun c ao


de e proporcional a . Isto e an alogo a (12.6.3), mas a constante da
proporcionalidade e, neste caso, independente de k.
(b) Usa-se a f ormula de Taylor para mostrar que Pred e uma aproxima c ao
de segunda ordem da redu c ao da fun c ao de merito. Junto com o resultado
(a), isso implica, como no Teorema 12.5.1, que

(x
k
) ( x)
Pred()
1

= O().
224 CHAPTER 12. PROGRAMAC

AO QUADR

ATICA SEQ

UENCIAL
(c) Supondo que x

e um ponto limite n ao estacion ario para (12.6.1), o


resultado (b) implica que, em todos os iterandos numa vizinhan ca de x

,
o raio de conan ca nalmente aceito
k
e uniformemente maior que um
n umero positivo xo

. Junto com (b), isto implica que a redu c ao da
fun c ao de merito em uma quantidade innita de itera c oes vizinhas de x

e
superior a uma quantidade positiva xa.
(d) Se a fun c ao de merito fosse sempre a mesma para todo k sucientemente
grande, o resultado (c) seria suciente para chegar a um absurdo (fun c ao de
merito tendendo a em condi c oes de compacidade). Como a fun c ao de
merito muda de uma itera c ao para outra, esse absurdo se consegue apenas
pela propriedade de convergencia da seq uencia
k
que, como vemos aqui, e
crucial do ponto de vista te orico.
Na segunda parte da prova de convergencia se demonstra a existencia de pelo
menos um ponto limite que e estacion ario para o problema (12.1.1). N ao
existe ainda uma prova de que todos os pontos limites s ao estacion arios e, ao
longo de toda a demonstra c ao desta segunda parte, e usada, por absurdo,
a hip otese de que nenhum ponto limite da seq uencia e estacion ario. Outras
suposi c oes sobre o problema tambem s ao necess arias nesta parte:
(i) Todos os pontos estacion arios de (12.6.1) s ao factveis.
(ii) Todos os pontos factveis de (12.1.1) s ao regulares.
Devido ` a hip otese (i), pode-se supor, ao longo da prova, que
lim
k
|h(x
k
)| = 0.
Na primeira parte da prova por absurdo, demonstra-se que a fun c ao (quadr atica)
objetivo de (12.2.3) tem um bom decrescimo (proporcional a ) desde
x
nor
() ate x(). Chamamos a esta varia c ao de decrescimo tangencial.
O argumento se baseia em x
nor
ser um ponto factvel de (12.2.3) e, devido a
|x
nor
x
k
| 0.8, existir uma folga (brevemente, de 0.2) para um bom
decrescimo da quadr atica.
Na segunda parte da prova, examinamos a composi c ao da quantidade crucial
que chamamos Pred. Como na prova da estacionariedade em rela c ao a
dos pontos limite, necessitamos que Pred seja positivo e proporcional a .
O decrescimo proporcional a da fun c ao objetivo de (12.2.3), entre x
nor
e x
e um bom passo. Agora, observando a deni c ao (12.4.6) de Pred, vemos que
o termo que multiplica est a composto, alem do decrescimo da quadr atica
entre x
nor
e x, pela varia c ao dessa quadr atica entre x
k
e x
nor
e pelo termo
que envolve a varia c ao dos multiplicadores de Lagrange. Esses dois termos
estorvam o objetivo de ter um Pred sucientemente positivo. Por outro
lado, o termo que multiplica a 1 e, claramente, proporcional a |h(x
k
)|,
12.7. A PROVA DE CONVERG

ENCIA GLOBAL 225


que tende a zero. Portanto, para ter um Pred positivo e proporcional a
, precisaremos que n ao evolua para valores pr oximos de zero, e, por
outro lado, que o estorvo seja dominado pelo decrescimo tangencial da
quadr atica.
N ao e difcil provar que o estorvo est a limitado, em m odulo, por um
m ultiplo de |h(x
k
)|. Escrevendo
[Estorvo[ c
1
|h(x
k
)|
e
Decrescimo tangencial c
2
,
e, desde que
Pred() Decrescimo tangencial [Estorvo[,
se deduz que
Pred() c
2
c
1
|h(x
k
)|.
Portanto, se |h(x
k
)| , com = c
2
/(2c
1
), obtemos que Pred() e
positivo e proporcional a .
Pensamos agora no plano (, h(x)). O argumento acima nos leva a con-
siderar uma zona boa do plano, formado pelos pares (, x
k
) tais que
|h(x
k
)| e uma zona ruim, onde o contr ario acontece. Na zona boa,
o fator de em (12.4.6) e t ao grande, e o fator de 1 t ao pequeno, ass-
intoticamente, que a condi c ao (12.5.1) se satisfaz com valores grandes de
. Portanto, sempre que o par se encontre na zona boa n ao precisar a ser
diminudo.
Por outro lado, o mesmo raciocnio usado na prova de estacionariedade em
rela c ao a leva a que
k
0. Com efeito, se assim n ao fosse, os valores de
Pred para esses k seriam superiores a um m ultiplo de , j a que o fato do
primeiro testado ser superior ao valor xo
min
, obriga a que a seq uencia
de possveis s fracassados dentro de uma mesma itera c ao n ao possa tender
a zero. Teramos assim, innitos superiores a um valor xo e innitos
k
superiores a um valor xo. As duas coisas juntas levam a uma fun c ao de
merito tendendo a , o que e absurdo.
O argumento central continua com uma propriedade surpreendente da zona
ruim: uma an alise cuidadosa da aproxima c ao de Taylor da fun c ao de merito
, junto com a propriedade
k
0, provam que, nessa zona, para k sucien-
temente grande, o raio de conan ca e necessariamente aceito. Em outras
palavras, para cada itera c ao k pode haver apenas uma tentativa dentro da
zona ruim. Por outro lado, como vimos antes, e apenas nesta situa c ao que
226 CHAPTER 12. PROGRAMAC

AO QUADR

ATICA SEQ

UENCIAL
pode ser necess ario diminuir . Uma propriedade adicional da zona ruim e
que, nessa zona,
sup
e sempre superior a um m ultiplo de . Juntando as
duas propriedades acima, diramos que e possvel entrar na indesej avel zona
ruim, mas pouco, e que e possvel ter que diminuir na zona ruim, mas de
maneira controlada.
N ao e de se estranhar, em conseq uencia, que os efeitos perniciosos da zona
ruim estejam tambem limitados. De fato, usando as propriedades acima e,
de novo, a expans ao de Taylor da fun c ao de merito, chega-se a conclus ao
de que o quociente entre a varia c ao desta e Pred converge a 1 considerando
apenas raios na zona boa. Isso e uma agrante contradi c ao, porque impli-
caria em jamais ser necess ario entrar na zona ruim. Tais contradi c oes se
originam na suposi c ao err onea original que, como lembramos, consistia em
assumir que nenhum ponto limite era estacion ario para o problema (12.1.1).
12.8 A Hessiana da quadratica
Os algoritmos estudados neste captulo permitem uma grande liberdade na
escolha na matriz B
k
, Hessiana da quadr atica fun c ao objetivo de (12.2.3).
O Algoritmo 12.5.1 exige apenas que a seq uencia de matrizes B
k
esteja uni-
formemente limitada. Por exemplo, a teoria e v alida se todas as B
k
s ao nu-
las, caso no qual poderamos falar, mais apropriadamente, de programa c ao
linear seq uencial.
No entanto, como acontece na resolu c ao de sistemas n ao lineares e na mini-
miza c ao de fun c oes sem restri c oes, existem escolhas otimas para as matrizes
que denem os algoritmos, e outras escolhas francamente desaconselh aveis.
Nos algoritmos de regi oes de conan ca sem restri c oes a melhor escolha e a
Hessiana da fun c ao objetivo. Apesar disso, a teoria de convergencia global
para condi c oes de primeira ordem funcionaria mesmo que escolhessemos sua
inversa aditiva!
De um modo geral, estamos acostumados a pensar que a escolha otima de
uma matriz e a que se relaciona mais diretamente com o metodo de Newton.
Vejamos aonde nos leva este tipo de argumento no caso da programa c ao
quadr atica seq uencial.
Para xar ideias, vamos considerar nesta se c ao problemas do tipo (12.1.1)
apenas com as restri c oes de igualdade, ou seja:
Minimizar f(x)
sujeita a h(x) = 0
(12.8.1)
12.8. A HESSIANA DA QUADR

ATICA 227
`
A primeira vista, a escolha mais newtoniana para B
k
e a pr opria Hessiana
da fun c ao objetivo: B
k
=
2
f(x
k
). No entanto, o seguinte problema simples
ajuda a levantar alguma suspeita sobre essa elei c ao:
Minimizar 4(x
1
1)
2
+x
2
2
sujeita a x
1
x
2
2
= 0 ,
(12.8.2)
Neste problema, o ponto (0, 0) seria um minimizador para
Minimizar 4(x
1
1)
2
+x
2
2
sujeita a x
1
= 0 ,
mas um maximizador para (12.8.2). Em outras palavras, quando tomamos
B
k
=
2
f(x
k
) em (12.2.3), perdemos informa c oes sobre a curvatura das
restri c oes. Isto nos sugere que devemos incorporar em B
k
as derivadas se-
gundas de h.
Vejamos a situa c ao sob outro ponto de vista, mais claramente newtoniano.
Consideremos as condi c oes de otimalidade do problema (12.8.1). Se x

e um
ponto regular minimizador local de (12.8.1), ent ao existe

IR
m
tal que
f(x

) +h

(x

)
T

= 0
h(x

) = 0 .
(12.8.3)
Pensando (12.8.3) como um sistema n ao linear nas vari aveis (x, ) (F(x, ) = 0),
seu Jacobiano e
F

(x, ) =
_

2
f(x) +

m
i=1

2
h
i
(x) h

(x)
T
h

(x) 0
_
Portanto, o metodo de Newton aplicado a F(x, ) = 0 vem dado por
[
2
f(x
k
)+
m

i=1
[
k
]
i

2
h
i
(x
k
)](xx
k
)+h

(x
k
)
T
(
k
) = (f(x
k
)+h

(x
k
)
T

k
)
e
h

(x
k
)(x x
k
) = h(x
k
),
ou seja,
[
2
f(x
k
) +

m
i=1
[
k
]
i

2
h
i
(x
k
)](x x
k
) +h

(x
k
)
T
+f(x
k
) = 0
h

(x
k
)(x x
k
) +h(x
k
) = 0 .
(12.8.4)
Agora, as condi c oes de otimalidade de (12.1.4), sem as restri c oes de canal-
iza c ao l x u, s ao
228 CHAPTER 12. PROGRAMAC

AO QUADR

ATICA SEQ

UENCIAL
B
k
(x x
k
) +f(x
k
) +h

(x
k
)
T
y = 0
h

(x
k
)(x x
k
) +h(x
k
) = 0
(12.8.5)
onde y IR
m
. Logo, comparando (12.8.4) com (12.8.5), o metodo de Newton
nos sugere que
B
k
=
2
f(x
k
) +
m

i=1
[
k
]
i

2
h
i
(x
k
) (12.8.6)
onde
k
IR
m
e uma estimativa para os multiplicadores de Lagrange. Com
a escolha (12.8.6) para B
k
, a curvatura das restri c oes est a sendo contem-
plada. A matriz B
k
ideal seria portanto a Hessiana do Lagrangiano, para
a qual as propriedades de convergencia local do metodo denido pelo sub-
problema (12.1.4) seriam as mesmas que as do metodo de Newton aplicado
ao sistema denido por (12.8.3). Para outras aproxima c oes para B
k
, a con-
vergencia local seria a mesma que a de um metodo quase-Newton. Boggs,
Tolle e Wang [19] deram uma condi c ao an aloga ` a condi c ao Dennis-More para
a convergencia superlinear de metodos quase-Newton aplicados a (12.8.3).
Uma conseq uencia dessa condi c ao e que, supondo n ao singularidade da Ja-
cobiana do sistema (12.8.3), se as matrizes B
k
convergem ` a Hessiana do
Lagrangiano na solu c ao, ent ao a convergencia do par (x
k
,
k
) para (x

)
e superlinear.
Exerccio 12.14: Discutir duas alternativas para o coeciente linear de
(12.1.4)(12.2.3): f(x
k
) e (x
k
). Justicar a arma c ao de que, em um
caso, (12.1.4)(12.2.3) fornece diretamente a nova estimativa dos multipli-
cadores de Lagrange, e no outro, fornece seu incremento.
Exerccio 12.15: Relacionar a n ao singularidade da Jacobiana do sistema
(12.8.3) na solu c ao com as propriedades da Hessiana do Lagrangiano no
n ucleo de h

(x

). Relacionar com as condi c oes sucientes de otimalidade de


segunda ordem para minimiza c ao com restri c oes de igualdade.
Uma abordagem quase-newtoniana bastante empregada e atualizar B
k
com
algo an alogo ` a popular f ormula BFGS de minimiza c ao sem restri c oes:
B
k+1
= B
k

B
k
s
k
s
T
k
B
k
s
T
k
B
k
s
k
+
y
k
y
T
k
s
T
k
y
k
onde s
k
= x
k+1
x
k
e y
k
=
x
(x
k+1
,
k+1
)
x
(x
k
,
k
). Se B
k
e denida
positiva, como no caso de minimiza c ao sem restri c oes, a condi c ao s
T
k
y
k
> 0
12.9. OUTRAS FUNC

OES DE M

ERITO 229
garante que B
k+1
e denida positiva. No entanto, pode ser que s
k
e y
k
n ao
satisfa cam essa desigualdade. Powell [164] prop oe que y
k
seja substitudo
por
y
k
= y
k
+ (1 )B
k
s
k
,
onde
=
_

_
1 , s
T
k
y
k
0.2s
T
k
B
k
s
k
0.8s
T
k
B
k
s
k
s
T
k
B
k
s
k
s
T
k
y
k
, s
T
k
y
k
< 0.2s
T
k
B
k
s
k
.
No entanto, o mesmo autor [167] observa que a substitui c ao de y
k
por y
k
pode ser inst avel. Boggs e Tolle [17], por sua vez, prop oem que B
k+1
= B
k
quando s
T
k
y
k
< 0.
Exerccio 12.16: Supor que o problema (12.1.4) sem canaliza c oes e factvel.
Mostrar, usando uma base do n ucleo de h

(x
k
), como esse problema pode
ser reduzido ` a minimiza c ao de uma quadr atica sem restri c oes. Em que
condi c oes esse problema tem solu c ao unica? Supondo que B
k
e denida
positiva, e escrevendo A
k
= h

(x
k
), h
k
= h(x
k
), g
k
f(x
k
), provar que a
solu c ao desse problema e
x = x
k
B
1
k
(g
k
+A
T
k
z)
onde
z = (A
k
B
1
k
A
T
k
)
1
(h
k
A
k
B
1
k
g
k
).
Discutir a praticidade dessas f ormulas. Por exemplo, analisar o que acontece
em rela c ao ` a conserva c ao da possvel esparsidade de A
k
e B
k
.
12.9 Outras fun c oes de merito
No Algoritmo 12.5.1 usamos a fun c ao de merito
(x, , ) = (x, ) + (1 )(x),
com (x) = |h(x)|
2
2
/2. Usar esta fun c ao, com o par ametro entre 0 e 1, e
essencialmente equivalente a usar

(x, , ) = (x, ) +(x), (12.9.1)


que e a forma tradicional do Lagrangiano aumentado. Agora, vimos que a
teoria de convergencia global permite um enorme liberdade para as aprox-
ima c oes dos multiplicadores
k
. Em particular, e admissvel usar sempre
230 CHAPTER 12. PROGRAMAC

AO QUADR

ATICA SEQ

UENCIAL

k
= 0, o que, por outro lado, permite uma leitura mais simples da teoria.
Agora, usar
k
= 0 corresponde a trabalhar com a fun c ao de merito

quad
(x, ) = f(x) +(x). (12.9.2)
Claramente,
quad
e a cl assica fun c ao de penalidade quadr atica. Com a in-
trodu c ao dos multiplicadores na fun c ao (12.9.2) esperamos que o par ametro
de penalidade n ao precise crescer muito, eliminando possveis fontes de
instabilidade numerica, o que n ao e reetido numa teoria de convergencia
global.
No entanto, podemos analisar o comportamento da fun c ao
quad
sob outro
aspecto. Como sabemos, a aplica c ao do metodo de Newton ao sistema
(12.8.3), tem propriedades de convergencia local quadr atica, no par (x, ),
quando a Jacobiana na solu c ao e n ao singular. Nessas condi c oes, o metodo
de Newton pode ser interpretado como a resolu c ao recursiva do subprob-
lema de programa c ao quadr atica (12.1.4) com as matrizes B
k
sendo as Hes-
sianas dos Lagrangianos. Como este metodo e localmente r apido, e de-
sej avel que, dado x
k
, a solu c ao x aportada pela resolu c ao de (12.1.4) seja
aceita como nova itera c ao x
k+1
e que n ao seja necess ario apelar, neste caso,
para diminui c oes do raio de conan ca . Agora, para que isso aconte ca, e
necess ario, pelo menos, que a fun c ao de merito calculada em ( x,

) (solu c ao
de (12.1.4) e multiplicador correspondente) seja menor que a mesma fun c ao
em (x
k
,
k
). Caso contr ario, a fun c ao de merito estaria recomendando re-
jeitar um ponto essencialmente bom.
Infelizmente, muitas fun c oes de merito tem essa desagrad avel propriedade,
que e denominada efeito Maratos. Ver [131]. O efeito Maratos reete, as-
sim, um conito entre o ponto de vista Cauchy, que exige diminui c ao de uma
fun c ao objetivo, e o ponto de vista Newton que produz convergencia local
r apida. Em particular, a fun c ao de merito
quad
sofre dessa propriedade e
inibe convergencia r apida do metodo de Newton em circunst ancias onde ela
seria perfeitamente possvel.
Exerccio 12.17: Considerar o problema
Minimizar x
2
sujeita a x
2
1
+x
2
2
= 1
e a fun c ao de merito

(x) = x
2
+ [x
2
1
+ x
2
2
1[ para sucientemente
grande de maneira que o minimizador de

seja (0, 1)
T
. Vericar o efeito
Maratos.
12.9. OUTRAS FUNC

OES DE M

ERITO 231
Diferenciabilidade, par ametros de penalidade moderados, simplicidade e
ausencia de efeito Maratos s ao qualidades desej aveis das fun c oes de merito
aplicadas a programa c ao quadr atica seq uencial. Vejamos como aparecem
(ou n ao) essas propriedades em outras fun c oes sugeridas na literatura.
(a) A fun c ao de penalidade com | |
1
, dada por

(x) = f(x) +|h(x)|


1
e interessante por ser exata, isto e, para um valor nito do par ametro, seu
minimizador e a solu c ao do problema de otimiza c ao original, como vimos no
Exerccio 12.17. No entanto, ela n ao e diferenci avel e sofre do efeito Maratos.
(b) A fun c ao de penalidade exata de Fletcher

(x) = f(x) h(x)


T
(x) +

2
|h(x)|
2
2
,
onde (x) = (h

(x)
T
)

f(x), n ao tem efeito Maratos, mas e computacional-


mente cara, o que a faz pouco interessante para problemas grandes.
(c) A soma de quadrados associada ao sistema n ao linear:
(x, ) = |f(x) +h

(x)
T
|
2
2
+|h(x)|
2
2
n ao tem efeito Maratos, e diferenci avel e simples. Porem, praticamente n ao
e usada porque seus minimizadores resultam tanto em minimizadores quanto
em maximizadores do problema original.
O Lagrangiano aumentado usado neste captulo e simples e diferenci avel.
No entanto, a modera c ao nos par ametros de penalidade e o efeito Maratos
dependem da escolha dos multiplicadores . No momento em que escrevemos
este captulo, a teoria de convergencia local do Algoritmo 12.5.1 n ao est a
completa, mas e previsvel que ela incluir a os seguintes resultados:
(a) Em condi c oes adequadas de regularidade local do problema (12.1.1) (i) o
subproblema (12.1.4) coincide com (12.2.3); (ii) (12.1.4) tem solu c ao unica;
(iii) com uma boa escolha dos multiplicadores
k
e das matrizes B
k
os
par ametros de penalidade
k
s ao todos maiores que um n umero positivo
xo e a solu c ao de (12.1.4) e aceita como pr oxima itera c ao x
k+1
.
(b) Nas condi c oes acima, se as B
k
s ao Hessianas dos Lagrangianos, a con-
vergencia de (x
k
,
k
) para (x

) e quadr atica. Para escolhas quase-newtonianas


adequadas de B
k
, a convergencia e superlinear. Para determinadas estima-
tivas de
k
a convergencia e quadr atica no caso Newton e superlinear no
232 CHAPTER 12. PROGRAMAC

AO QUADR

ATICA SEQ

UENCIAL
caso quase-Newton considerando apenas a vari avel x.
Exerccio 12.18: Discutir convergencia quadr atica ou superlinear na vari avel
x e no par (x, ). Qual e mais forte? Qual e mais desej avel? Dar exemplos
mostrando quando uma n ao implica a outra.
Exerccio 12.19: Schittkowski (1981) e Gill, Murray, Saunders e Wright
(1992), entre outros, estudaram o problema (12.1.1) na forma
Minimizar f(x)
sujeita a c(x) 0
(12.9.3)
Para construir uma fun c ao de merito, esses autores introduzem vari aveis de
folga nas restri c oes, apenas para efetuar a busca na fun c ao de merito
c
i
(x) = 0 c
i
(x) +s
i
= 0 , s
i
0 , i = 1, . . . , p
e ent ao

(x, , s) = f(x) +
T
(c(x) +s) +

2
|c(x) +s|
2
2
onde IR
p
e uma estimativa para os multiplicadores. Discutir as pro-
priedades dessa fun c ao.
Exerccio 12.20: Existem duas estrategias para a formula c ao dos sub-
problemas quadr aticos num metodo PQS aplicado a (12.9.3). Na primeira,
baseada em desigualdades, trabalha-se com problemas quadr aticos com re-
stri c oes lineares de desigualdade, e a decis ao acerca do conjunto de restri c oes
ativas e tomada internamente durante a resolu c ao do problema quadr atico.
A segunda estrategia, baseada em igualdades, consiste em xar-se a pri-
ori quais ser ao as restri c oes ativas e ent ao trabalhar com subproblemas
quadr aticos com restri c oes de igualdade. O conjunto de restri c oes ativas
I
k
1, . . . , p e atualizado a cada itera c ao pela an alise dos multiplicadores
de Lagrange do subproblema e pelo exame dos valores c
i
(x
k+1
) para i , I
k
.

E possvel ainda adotar-se uma estrategia hbrida, isto e, baseada em de-


sigualdades, mas com um warm start para o conjunto das restri c oes ativas,
com o objetivo de melhorar a eciencia do algoritmo. Fazer uma an alise a
priori das possveis vantagens e desvantagens das duas estrategias.
12.10. NOTAS HIST

ORICAS 233
12.10 Notas hist oricas
A primeira proposta de um metodo de programa c ao quadr atica seq uencial foi
feita por Wilson (1963) em sua tese de doutorado, para problemas convexos.
Ele trabalhou com subproblemas quadr aticos com restri c oes de desigualdade
e utilizou a pr opria matriz Hessiana do Lagrangiano no modelo quadr atico.
Como estimativa para os multiplicadores, Wilson utilizou os multiplicadores
do subproblema na itera c ao anterior.
A abordagem de Wilson foi retomada e interpretada por Beale (1967), orig-
inando o algoritmo SOLVER. Bard e Greenstadt (1969) reinterpretaram
SOLVER, mostrando que o algoritmo de Wilson-Beale pode ser dividido
em dois passos: primeiro xar os multiplicadores
k
e obter x(
k
) mini-
mizando o Lagrangiano do subproblema e a seguir obter
k+1
e a corre c ao
x(
k+1
) x(
k
) pela maximiza c ao deste mesmo Lagrangiano. Murray ([150],
[151]) estendeu os trabalhos anteriores, incluindo aproxima c oes quase-Newton
para a Hessiana do modelo quadr atico e estimativas diferentes para os multi-
plicadores de Lagrange. Alem disso, Murray tambem considerou a resolu c ao
parcial do subproblema e sugeriu uma busca linear a cada itera c ao utilizando
a fun c ao de penalidade quadr atica (ver tambem Gill e Murray(1974), cap.8,
parte III).
Biggs (1972, 1974, 1975) prop os uma varia c ao do metodo de Murray, com
subproblemas quadr aticos apenas com restri c oes de igualdade e sugeriu esti-
mativas especiais para os multiplicadores. Garca-Palomares e Mangasarian
(1976) sugeriram um metodo baseado em programa c ao quadr atica derivado
da aplica c ao de tecnicas quase-Newton ao sistema n ao linear proveniente
das condi c oes de otimalidade do problema original. Han (1976 e 1977) reto-
mou a ideia original de Wilson, trabalhando com restri c oes de desigualdade
nos subproblemas quadr aticos, mas sugerindo atualiza c oes quase-Newton
denidas positivas para a matriz Hessiana do Lagrangiano. As estimativas
para os multiplicadores s ao tomadas como os multiplicadores da itera c ao
anterior. No algoritmo de Han, superlinearmente convergente sob certas
hip oteses, a fun c ao de penalidade exata
1
e usada pela primeira vez como
fun c ao de merito.
Powell (1977 e 1978) prop os um algoritmo de programa c ao quadr atica seq uencial
semelhante ao de Han, com aproxima c oes quase-Newton denidas positivas
para a Hessiana do Lagrangiano e tambem superlinearmente convergente
sob algumas hip oteses. Nesta linha de trabalho baseada em aproxima c oes
quase-Newton para a matriz Hessiana do Lagrangiano destacam-se as es-
trategias de Powell (1977), Murray e Wright (1978), Schittkowski (1980) e
Boggs, Tolle e Wang (1982). Como armamos em outra se c ao, Boggs, Tolle
234 CHAPTER 12. PROGRAMAC

AO QUADR

ATICA SEQ

UENCIAL
e Wang obtiveram uma condi c ao necess aria e suciente para convergencia
superlinear do tipo da condi c ao de Dennis-More para sistemas n ao lineares.
Maratos (1978) e Chamberlain (1979) descrevem algumas diculdades decor-
rentes do uso da fun c ao de penalidade exata baseada em | |
1
como fun c ao
de merito. Chamberlain, Lemarechal, Pederson e Powell (1980) tambem
analisam alguns aspectos dessa penalidade exata como fun c ao de merito.
Uma proposta para evitar o efeito Maratos, baseada em buscas lineares n ao
mon otonas, e feita por Panier e Tits (1991) e complementada por Bonnans,
Panier, Tits e Zhou (1992).
Murray e Wright (1980) fazem uma discuss ao de diferentes formula c oes para
o subproblema. Metodos de programa c ao quadr atica seq uencial cujo sub-
problema lida apenas com restri c oes de igualdade (xando-se a priori as
restri c oes ativas) s ao tratados por Wright (1976), que introduziu o uso da
fun c ao Lagrangiano aumentado como fun c ao de merito, e por Murray e
Wright (1978).
Cabe observar que muitos metodos para minimiza c ao de fun c oes de penal-
idade n ao diferenci aveis tem a mesma forma que metodos de programa c ao
quadr atica seq uencial nos quais a dire c ao de busca e obtida pela decom-
posi c ao em dois passos ortogonais: um no n ucleo e outro no espa co linha do
Jacobiano das restri c oes. Nesta classe se enquadram os metodos de Cole-
man (1979), Coleman e Conn (1980 e 1984), Fontecilla (1983) e Nocedal
e Overton (1985). Em termos de atualiza c oes para a matriz Hessiana do
modelo quadr atico, Fontecilla (1983), Colemman e Conn (1984) e Nocedal
e Overton (1985) conservaram as matrizes B
k
denidas positivas apenas no
subespa co tangente ` as restri c oes. J a Celis, Dennis e Tapia (1985) trabal-
haram com metodos de regi ao de conan ca, nos quais n ao se precisa de
matrizes positivas denidas como garantia para existencia de solu c ao nos
subproblemas.
Powell e Yuan (1986) trabalharam com Lagrangiano aumentado como fun c ao
de merito, em problemas com restri c oes de igualdade. Os multiplicadores s ao
estimados por quadrados mnimos, sendo portanto tratados como fun c oes
do ponto atual. Neste trabalho, Powell e Yuan provam propriedades de
convergencia global e local.
Outras fun c oes de merito suaves foram consideradas por Dixon (1979),
Di Pillo e Grippo (1979), Schittkowski (1981), Boggs e Tolle (1984,1985),
Bartholomew-Biggs (1987) e Gill, Murray, Saunders e Wright (1992).
Os multiplicadores como vari aveis adicionais, com busca linear com rela c ao
ao vetor aumentado que contem as vari aveis originais e os multiplicadores
foram usados por Tapia (1977) no contexto de Lagrangiano aumentado e sub-
problemas irrestritos. Tambem foi aplicada por Schittkowski (1981) e Gill,
12.10. NOTAS HIST

ORICAS 235
Murray, Saunders e Wright (1992) em algoritmos de programa c ao quadr atica
seq uencial.
Em programa c ao quadr atica seq uencial, e possvel truncar o procedimento
iterativo para resolu c ao do subproblema quadr atico sem alterar a taxa de
convergencia assint otica. Neste sentido, criterios pr aticos de parada s ao
apresentados por Dembo e Tulowitzki (1985), Fontecilla (1985, 1990) e Yabe,
Yamaki e Takahashi (1991).
Para problemas de grande porte, Nickel e Tolle (1989) prop oem um algoritmo
baseado no problema dual associado ao subproblema quadr atico.
Com o objetivo de contornar a possibilidade de se ter subproblemas in-
factveis, Burke (1989) prop oe um metodo robusto e est avel com propriedades
de convergencia global. Outros trabalhos combinam ideias de programa c ao
quadr atica seq uencial, no sentido de usar resolu c oes aproximadas do sistema
linear newtoniano associado ` as condi c oes de otimalidade com ideias de pon-
tos interiores para restri c oes de desigualdade. Ver [117], e suas referencias.
Apesar da extensa teoria desenvolvida em torno dos metodos principalmente
em aspectos relativos a convergencia, pouco tem sido feito em termos de
experimentos numericos comparativos. Isto se deve, provavelmente, ` a di-
versidade de detalhes pr oprios da implementa c ao dos diferentes algoritmos
existentes, o que os torna pouco compar aveis. O trabalho de Shanno e
Phua (1989) e pioneiro neste sentido. Eles comparam o desempenho de
um algoritmo geral de de programa c ao quadr atica seq uencial combinando
diferentes escolhas da atualiza c ao secante para a matriz Hessiana do modelo
quadr atico, diferentes maneiras de estimar os multiplicadores e diferentes
fun c oes de merito. Como conclus oes, Shanno e Phua recomendam uma
variante do algoritmo b asico de Boggs e Tolle (1984) e observam que as
experiencias numericas indicam a necessidade de se investir na obten c ao de
melhores estimativas para os multiplicadores de Lagrange.
O algoritmo no qual nos concentramos neste captulo, essencialmente intro-
duzido em [98], re une v arias das caractersticas desej aveis em bons metodos
de programa c ao quadr atica seq uencial:
(a) O uso de regi oes de conan ca, que aumentam a estabilidade dos
subproblemas quando e necess ario reduzir o raio.
(b) Aplicabilidade a igualdades e desigualdades, atraves da formula c ao
(12.1.1).
(c) O uso do Lagrangiano aumentado, diferenci avel, simples, est avel e,
provavelmente, livre do efeito Maratos.
(d) Estrategia n ao mon otona para o par ametro de penalidade.
236 CHAPTER 12. PROGRAMAC

AO QUADR

ATICA SEQ

UENCIAL
(e) Os subproblemas n ao precisam ser resolvidos exatamente, o que
viabiliza a aplicabilidade a problemas de grande porte.
(f) Embora n ao tenha sido destacado neste captulo, a existencia de se-
gundas derivadas de f e h n ao e necess aria. (Em [169] encontramos
exemplos de problemas importantes de otimiza c ao onde essa car-
acterstica e relevante.)
Bibliography
[1] J. Abadie e J. Carpentier (1969): Generalization of the Wolfe Re-
duced Gradient Method to the Case of Nonlinear Constraints, em
Optimization (R.Fletcher ed.), Academic Press, London e New York,
37-47.
[2] J. Abadie e J. Carpentier (1967): Some numerical experiments with
the GRG method for nonlinear programming, Paper HR7422, Elec-
tricite de France.
[3] I. Adler, M. Resende, G. Veiga e N. Karmarkar (1989): An imple-
mentation of Karmarkars algorithm for linear programming, Math-
ematical Programming 44, 297-335.
[4] Y. Bard e J. L. Greenstadt (1969): A Modied Newton Method
for Optimization with Equality Constraints, em Optimization (R.
Fletcher ed.), Academic Press, London e New York, 299-306.
[5] E. R. Barnes (1986): A variation of Karmarkars algorithm for solving
linear programming problems, Mathematical Programming 36, 174-
182.
[6] R. Barrett, M. Berry, T.F. Chan, J. Demmel, J.Donato, J. Dongarra,
V. Eijkhout, R. Pozo, Ch. Romine e H. van derVorst (1994): Tem-
plates for the solution of linear systems: buildin gblocks for iterative
methods, SIAM Publications, Philadelphia.
[7] M. C. Bartholomew-Biggs (1987): Recursive quadratic programming
methods based on the augmented Lagrangian, Mathematical Pro-
gramming Studies 31, 21-41.
[8] J. Barzilai e J.M. Borwein (1988): Two point step size gradient meth-
ods, IMA Journal of Numerical Analysis 8, 141-148.
237
238 BIBLIOGRAPHY
[9] M. S. Bazaraa, J. J. Jarvis e H. D. Sherali (1977): Linear program-
ming and network ows, John Wiley and sons, New York, Chichester,
Brisbane, Toronto e Singapore.
[10] E. M. L. Beale (1967): Numerical Methods, em Nonlinear Program-
ming (J. Abadie ed.), North-Holland, Amsterdam, 132-205.
[11] D.P. Bertsekas (1982): Projected Newton methods for optimization
problems with simple constraints, SIAM Journal on Control and Op-
timization 20, 141-148.
[12] R. H. Bielschowsky, A. Friedlander, F. M. Gomes, J. M. Martnez
e M. Raydan (1997): An adaptive algorithm for bound constrained
quadratic minimization, Investigaci on Operativa, Vol 7, N umero 12,
pp. 67-102.
[13] M. C. Biggs (1972): Constrained minimization using recursive equal-
ity quadratic programming, em Numerical Methods for Nonlinear
Optimization (F. A. Lootsma ed.), Academic Press, London e New
York, 411-428.
[14] M. C. Biggs (1974): The Development of a Class of Constrained Opti-
mization Algorithms and their Application to the Problem of Electric
Power Scheduling, Ph. D. Thesis, University of London.
[15] M. C. Biggs (1975): Constrained minimization using recursive
quadratic programming: some alternative subproblem formulation,
em Towards Global Optimization (L. C. W. Dixon e G. P. Szeg o,
eds.), North-Holland, Amsterdam, 341-349.
[16] A. Bj orck (1987): Least squares methods, em Handbook of Numerical
Analysis, Vol 1 (P. G. Ciarlet e J. L. Lions, eds.), Elsevier-North
Holland, Amsterdam.
[17] P. T. Boggs e J. W. Tolle (1984): A family of descent functions for
constrained optimization, SIAM Journal on Numerical Analysis 21,
1146-1161.
[18] P. T. Boggs e J. W. Tolle (1985): An ecient strategy for utilizing
a merit function in nonlinear programming algorithms, Report 85-5,
Department of Operations Research and Systems Analysis, Univer-
sity of North Carolina.
BIBLIOGRAPHY 239
[19] P. T. Boggs, J. W. Tolle e P. Wang (1982): On the local conver-
gence of quasi-Newton methods for constrained optimization, SIAM
Journal on Control and Optimization 20, 161-171.
[20] J. F. Bonnans, E. R. Panier, A. L. Tits e J. L. Zhou (1992): Avoid-
ing the Maratos eect by means of a nonmonotone line search II.
Inequality constrained problems - feasible iterates, SIAM Journal on
Numerical Analysis 29, 1187-1202.
[21] M. J. Box, D. Davies e W. H. Swann (1970): Nonlinear Optimiza-
tion Techniques, Chemical Industries Monograph 5, Oliver and Boyd,
Edinburgh.
[22] P. N. Brown e Y. Saad (1990): Hybrid Krylov methods for nonlin-
ear systems of equations, SIAM Journal on Scientic and Statistical
Computing 11, 450-481.
[23] P. N. Brown e Y. Saad (1994): Convergence theory of nonlinear
Newton-Krylov methods, SIAM Journal on Optimization 4, 297-330.
[24] C. G. Broyden (1965): A class of methods for solving nonlinear si-
multaneous equations, Mathematics of Computation 19, 577-593.
[25] C. G. Broyden, J. E. Dennis e J. J. More (1973): On the local and
superlinear convergence of quasi-Newton methods, Journal of the In-
stitute of Mathematics and its Applications 12, 223-245.
[26] J. R. Bunch e B. N. Parlett (1971): Direct methods for solving sym-
metric indenite systems of linear equations, SIAM Journal on Nu-
merical Analysis 8, 639-655.
[27] J. V. Burke (1989): A Sequential Quadratic Programming Method
for Potentially Infeasible Mathematical Problems, Journal of Math-
ematical Analysis and Applications 139, 319-351.
[28] J. V. Burke e J. J. More, On the identication of active constraints,
SIAM Journal on Numerical Analysis 25, (1988) 1197-1211.
[29] M. D. Canon, C. D. Culllum e E. Polak (1970): Theory of Optimal
Control and Mathematical Programming, McGraw Hill, New York.
[30] M. R. Celis, J. E. Dennis e R. A. Tapia (1985): A trust region strat-
egy for nonlinear equality constrained optimization, em Numerical
Optimization 1984, (P. T. Boggs, R. H. Byrd e R. B. Schnabel eds.),
SIAM, Philadelphia, 71-82.
240 BIBLIOGRAPHY
[31] R. M. Chamberlain (1979): Some examples of cycling in variable met-
ric methods for constrained minimization, Mathematical Program-
ming 16, 378-383.
[32] R. M. Chamberlain, C. Lemarechal, H. C. Pederson e M. J. D. Pow-
ell (1980): The watchdog technique for forcing convergence in algo-
rithms for constrained optimization, Report DAMTP 80/NA1, Uni-
versity of Cambridge.
[33] I. E. Chambouleyron, J. M. Martnez, A. C. Moretti e M. Mulato
(1997): The retrieval of the optical constants and the thickness of
thin lms from transmission spectra, Applied Optics 36, pp. 8238-
8247.
[34] V. Chvatal (1980): Linear programming, W. H. Freeman and Com-
pany, New York / San Francisco.
[35] T. F. Coleman (1979): A Superlinear Penalty Function Method to
Solve the Nonlinear Programming Problem, Ph. D. Thesis, University
of Waterloo.
[36] T. F. Coleman e A. R. Conn (1982): Nonlinear programming via an
exact penalty function method: asymptotic analysis, Mathematical
Programming 24, 123-136.
[37] T. F. Coleman e A. R. Conn (1982): Nonlinear programming via an
exact penalty function method: global analysis, Mathematical Pro-
gramming 24, 137-161.
[38] T. F. Coleman e A. R. Conn (1984): On the local convergence of a
quasi-Newton method for the nonlinear programming problem, SIAM
Journal on Numerical Analysis 21, 755-769.
[39] T. F. Coleman e L. A. Hulbert (1989): A direct active set algorithm
for large sparse quadratic programs with simple bounds, Mathemat-
ical Programming 45, 373-406.
[40] A. R. Conn, N. I. M. Gould, A. Sartenaer e Ph. L. Toint (1993):
Global convergence of a class of trust region algorithms for optimiza-
tion using inexact projections on convex constraints, SIAM Journal
on Optimization 3, 164-221.
BIBLIOGRAPHY 241
[41] A. R. Conn, N. I. M. Gould e Ph. L. Toint (1988): Global convergence
of a class of trust region algorithms for optimization with simple
bounds, SIAM Journal on Numerical Analysis 25 433 - 460. Ver,
tambem, SIAM Journal on Numerical Analysis 26 (1989) 764 - 767.
[42] A. R. Conn, N. I. M. Gould e Ph. L. Toint (1989): Testing a class of
methods for solving minimization problems with simple bounds on
the variables, Mathematics of Computation 50, 399 - 430.
[43] A. R. Conn, N. I. M. Gould e Ph. L. Toint (1992): LANCELOT:
a Fortran package for large-scale nonlinear optimization (release A),
Springer Verlag, Berlin and New York.
[44] A. R. Conn, N. I. M. Gould e Ph. L. Toint (1991): A globally conver-
gent augmented Lagrangian algorithm for optimization with general
constraints and simple bounds, SIAM Journal on Numerical Analysis
28, 545 - 572.
[45] L. Contesse e J. Villavicencio (1982): Resoluci on de un modelo
econ omico de despacho de carga electrica mediante el metodo de pe-
nalizaci on Lagrangeana con cotas, Revista del Instituto Chileno de
Investigaci on Operativa 1982, 80-112.
[46] G. B. Dantzig (1963): Linear programming and extensions, Princeton
University Press, Princeton, NJ.
[47] W. C. Davidon (1959): Variable metric method for minimization,
AEC Research and Development Report ANL (Argonne National
Laboratory) - 5990.
[48] R. S. Dembo, S. C. Eisenstat e T. Steihaug (1982): Inexact Newton
methods, SIAM Journal on Numerical Analysis 19, 400408.
[49] R. S. Dembo e U. Tulowitzki (1985): Sequential Truncated Quadratic
Programming Methods, em Numerical Optimization 1984 (P. T.
Boggs, R. H. Byrd e R. B. Schnabel eds.), SIAM, Philadelphia, 83-
101.
[50] J. E. Dennis, N. Echebest, M. Guardarucci, J. M. Martnez, H. D.
Scolnik e C. Vacino (1991): A Curvilinear Search Using Tridiagonal
Secant Updates for Unconstrained Optimization, SIAM Journal on
Optimization 1, 352-372.
242 BIBLIOGRAPHY
[51] J. E. Dennis, M. El-Alem e M. C. Maciel (1995): A global conver-
gence theory for general trust-region-based algorithms for equality
constrained optimization, por aparecer em SIAM Journal on Opti-
mization.
[52] J. E. Dennis e J. J. More (1974): A Characterization of Superlinear
Convergence and its Application to Quasi-Newton Methods, Mathe-
matics of Computation 28, 546-560.
[53] J. E. Dennis e R.B. Schnabel (1979): Least change secant updates
for quasi-Newton methods, SIAM Review 21, 443-459.
[54] J. E. Dennis e Schnabel (1983): Numerical Methods for Uncon-
strained Optimization and Nonlinear Equations, Prentice-Hall, En-
glewood Clis.
[55] J. E. Dennis e H. F. Walker (1981): Convergence theorems for least-
change secant update methods, SIAM Journal on Numerical Analysis
18, 949-987.
[56] P. Deuhard (1991): Global inexact Newton methods for very large
scale nonlinear problems, Impact of Computing in Science and Engi-
neering 3, 366393.
[57] P. Deuhard, R. Freund A. Walter (1990): Fast secant methods for
the iterative solution of large nonsymmetric linear systems, Impact
of Computing in Science and Engineering 2, 244-276.
[58] I. I. Dikin (1967): Iterative solution of problems of linear and
quadratic programming, Soviet Math. Dokl. 8, 674-675.
[59] M. A. Diniz - Ehrhardt e J. M. Martnez (1993): A parallel pro-
jection method for overdetermined nonlinear systems of equations,
Numerical Algorithms 4, 241-262.
[60] G. Di Pillo e L. Grippo (1979): A new class of augmented Lagrangians
in nonlinear programming, SIAM Journal on Control and Optimiza-
tion 17, 618-628.
[61] L. C. W. Dixon (1979): Exact penalty functions in nonlinear pro-
gramming, Report 103, Numerical Optimisation Centre, Hateld
Polytechnique.
BIBLIOGRAPHY 243
[62] I. S. Du, A. M. Erisman e J. K. Reid (1986): Direct methods for
sparse matrices, Clarendon Press, Oxford.
[63] S. C. Eisenstat e H. F. Walker (1994): Globally convergent inexact
Newton methods, por aparecer em SIAM Journal on Optimization.
[64] M. El-Alem (1992): A robust trust region algorithm with a non-
monotone penalty parameter scheme for constrained optimization,
Technical Report 92-30, Department of Computational and Applied
Mathematics, Rice University, Houston.
[65] A. V. Fiacco (1983): Introduction to sensitivity and stability analysis
in nonlinear programming, Academic Press, New York.
[66] A. V. Fiacco e G. P. McCormick (1990): Nonlinear programming: se-
quential unconstrained minimization techniques, SIAM Publications,
Philadelphia.
[67] R. Fletcher (1970): A class of methods for nonlinear programming
with termination and convergence properties, em Integer and Non-
linear Programming (J. Abadie, ed.), North Holland, Amsterdam,
157-175.
[68] R. Fletcher (1974): Methods Related to Lagrangian Functions,
em Numerical Methods for Constrained Optimization (P.E.Gill e
W.Murray eds.), 235-239.
[69] R. Fletcher (1987): Practical methods for optimization, John Wiley
& Sons, Chichester.
[70] R. Fletcher e M. J. D. Powell (1963): A rapidly convergent descent
method for minimization Computer Journal 6, 163-168.
[71] R. Fontecilla (1983): A general convergence theory for quasi-Newton
methods for constrained optimization, Ph. D. Dissertation, Mathe-
matical Sciences Department, Rice University, Houston.
[72] R. Fontecilla (1985): On inexact quasi-Newton methods for con-
strained optimization, em Numerical Optimization 1984 (P. T. Boggs,
R. H. Byrd e R. B. Schnabel eds.), 102-118, SIAM, Philadelphia.
[73] R. Fontecilla (1990): Inexact secant methods for nonlinear con-
strained optimization, SIAM Journal on Numerical Analysis 27, 154-
165.
244 BIBLIOGRAPHY
[74] A. Forsgren e W. Murray (1993): Newton methods for large-scale
linear equality constrained minimization, SIAM Journal on Matrix
Analysis and applications 14, 560-587.
[75] A. Forsgren e W. Murray (1995): Newton methods for large-scale lin-
ear inequality constrained minimization, Technical Report, Systems
Optimization Laboratory, Stanford University.
[76] A. Friedlander, M. A. Gomes-Ruggiero, D. N. Kozakevich, J.M.
Martnez e S.A. Santos (1995): Solving nonlinear systems of equa-
tions by means of quasi-Newton methods with a nonmonotone strat-
egy, Relat orio tecnico, Instituto de Matem atica, Universidade Estad-
ual de Campinas.
[77] A. Friedlander, C. Lyra, H. M. Tavares e E. L. Medina (1989): Op-
timization with staircase structure An application to generation
scheduling, Computers and Operations Research 17, 143-152.
[78] A. Friedlander e J.M. Martnez (1989): On the numerical solution
of bound constrained optimization problems, RAIRO Operations Re-
search 23, 319-341.
[79] A. Friedlander e J.M. Martnez (1994): On the maximization of a
concave quadratic function with box constraints, SIAM Journal on
Optimization 4, 177-192.
[80] A. Friedlander, J.M. Martnez, B. Molina e M. Raydan (1994): Gra-
dient methods with retards, por aparecer em SIAM Journal on Nu-
merical Analysis.
[81] A. Friedlander, J.M. Martnez e M. Raydan (1995): A new method
for large-scale box constrained quadratic minimization problems, Op-
timization Methods and Software 5, pp. 57-74.
[82] A. Friedlander, J.M. Martnez e S.A. Santos (1994): A new trust
region algorithm for bound constrained minimization, Applied Math-
ematics and Optimization 30, 235-266.
[83] A. Friedlander, J. M. Martnez e S. A. Santos (1994): On the reso-
lution of linearly constrained convex minimization problems, SIAM
Journal on Optimization 4, 331-339.
BIBLIOGRAPHY 245
[84] A. Friedlander, J. M. Martnez e S. A. Santos (1995): Resolution
of linear complementarity problems using minimization with simple
bounds, Journal of Global Optimization 6, pp. 1-15.
[85] A. Friedlander, J. M. Martnez e S. A. Santos (1995): A new strategy
for solving variational inequalities in bounded polytopes, Numerical
Functional Analysis and Optimization 16, pp. 653-668.
[86] U. M. Garca-Palomares e O. L. Mangasarian (1976): Superlinearly
convergent quasi-Newton algorithms for nonlinearly constrained op-
timization problems, Mathematical Programming 11, 1-13.
[87] D. M. Gay (1979): Some convergence properties of Broydens
method, SIAM Journal on Numerical Analysis 16, 623 - 630.
[88] D. M. Gay (1981): Computing optimal locally constrained steps,
SIAM Journal on Scientic and Statistical Computing 2, 186-197.
[89] D. M. Gay (1984): A trust-region approach to linearly constrained
optimization, em Numerical Analysis (D. F. Griths, ed.), Lecture
Notes in Mathematics 1066, Springer-Verlag, Berlin, Heidelberg, New
York, 72-105.
[90] A. George e E. Ng (1987): Symbolic factorization for sparse Gaussian
elimination with partial pivoting, SIAM Journal on Scientic and
Statistical Computing 8, 877-898.
[91] F. Giannessi (1994): General optimality conditions via a separation
scheme, em Algorithms for continuous optimization (E. Spedicato,
ed.), Kluwer Academic Publishers, The Netherlands, 1-23.
[92] P. E. Gill, W. Murray (1974): Newton-type methods for uncon-
strained and linearly constrained optimization, Mathematical Pro-
gramming 7, 311-350.
[93] P. E. Gill, W. Murray, M. A. Saunders e M. H. Wright (1992): Some
theoretical properties of an augmented Lagrangian function, em Ad-
vances in Optimization and Parallel Computing (P. E. Pardalos ed.),
127-143, Elsevier, Amsterdam.
[94] P. E. Gill, W. Murray, M. A. Saunders e M. H. Wright (1991): Inertia-
controlling methods for general quadratic programming, SIAM Re-
view 33, 1-36.
246 BIBLIOGRAPHY
[95] P. E. Gill, W. Murray e M. H. Wright (1981): Practical Optimization,
Academic Press, London e New York.
[96] G. H. Golub e Ch. F. Van Loan (1989): Matrix Computations, The
Johns Hopkins University Press, Baltimore and London.
[97] D. Goldfarb (1969): Extensions of Davidons variable metric method
to maximization under linear inequality and equality constraints,
SIAM Journal on Applied Mathematics 17, 739-764.
[98] F. M. Gomes, M. C. Maciel e J. M. Martnez (1995): Successive
quadratic programming for minimization with equality and inequal-
ity constraints using trust regions, augmented Lagrangians and non-
monotone penalty parameters, por aparecer em Mathematical Pro-
gramming.
[99] H. S. Gomes e J. M. Martnez (1991): A Numerically Stable
Reduced-Gradient Type Algorithm for Solving Large-Scale Linearly
Constrained Minimization Problems, Computers and Operations
Research, 18, 1731.
[100] M. A. GomesRuggiero e J. M. Martnez (1992): The Column
Updating Method for solving nonlinear equations in Hilbert space,
RAIRO Mathematical Modelling and Numerical Analysis 26, 309-330.
[101] M. A. GomesRuggiero, J. M. Martnez e A. C. Moretti (1992): Com-
paring algorithms for solving sparse nonlinear systems of equations,
SIAM Journal on Scientic and Statistical Computing 13, 459 - 483.
[102] C. C. Gonzaga (1989): Algoritmos de pontos interiores para pro-
grama c ao linear, 17

Col oquio Brasileiro de Matem atica, IMPA,


CNPq, Rio de Janeiro.
[103] C. C. Gonzaga (1992): Path-following methods for linear program-
ming, SIAM Review 34, 167-224.
[104] N. I. M. Gould (1986): On the accurate determination of search
directions for simple dierentiable penalty functions, IMA Journal
of Numerical Analysis 6, 357-372.
[105] A. Griewank (1992): Achieving Logarithmic Growth of Temporal and
Spacial Complexity in Reverse Automatic Dierentiation, Optimiza-
tion Methods and Software 1, 35 - 54.
BIBLIOGRAPHY 247
[106] A. Griewank e Ph. L. Toint (1982): On the unconstrained optimiza-
tion of partially separable functions, in Nonlinear Optimization 1981
(M.J.D. Powell, ed.), Academic Press, New York.
[107] A. Griewank e Ph. L. Toint (1982): Partitioned variable metric for
large structured optimization problems, Numerische Mathematik 39,
119 - 137.
[108] A. Griewank e Ph. L. Toint (1982): Local convergence analysis for
partitioned quasi-Newton updates, Numerische Mathematik 39, 429-
448.
[109] A. Griewank e Ph. L. Toint (1984): Numerical experiments with par-
tially separable optimization problems, in Numerical Analysis Pro-
ceedings Dundee 1983, edited by D.F. Griths, Lecture Notes in
Mathematics vol. 1066, Springer - Verlag, Berlin, 203-220.
[110] L. Grippo, F. Lampariello e S. Lucidi (1986): A nonmonotone line
search technique for Newtons method, SIAM Journal on Numerical
Analysis 23, 707 - 716.
[111] S-P. Han (1976): Superlinearly convergent variable metric algorithms
for general nonlinear programming problems, Mathematical Program-
ming 11, 263-282.
[112] S-P. Han (1977): Dual variable metric algorithms for constrained
optimization, SIAM Journal on Control and Optimization 15, 546-
565.
[113] S-P. Han (1977): A globally convergent method for nonlinear pro-
gramming, Journal of Optimization Theory and Applications 22, 297-
310.
[114] E. R. Hansen (1979): Global optimization using interval analysis: the
one-dimensional case, Journal of Optimization Theory and Applica-
tions 29, 331-344.
[115] M. D. Hebden (1973): An algorithm for minimization using exact
second derivatives, Atomic Energy Research Establishment Report
TP 515, Harwell, Inglaterra.
[116] M. Heinkenschloss (1993): Mesh independence for nonlinear least
squares problems with norm constraints, SIAM Journal on Optimiza-
tion 3, 81-117.
248 BIBLIOGRAPHY
[117] J. Herskovits (1986): A two-stage feasible directions algorithm for
nonlinearly constrained optimization, Mathematical Programming 36,
19-38.
[118] M. R. Hestenes (1969): Multiplier and gradient methods, Journal of
Optimization Theory and Applications 4, 303-320.
[119] M.R. Hestenes e E. Stiefel (1952): Methods of conjugate gradients for
solving linear systems, Journal of Research of the National Bureau
of Standards B 49, 409-436.
[120] D. M. Himmelblau (1972): Applied Nonlinear Programming, Mc
Graw-Hill, New York.
[121] W. Hock e K. Schittkowski (1981): Test examples for nonlinear pro-
gramming codes, Lecture Notes in Economics and Mathematical Sys-
tems 187, Springer Verlag, Berlin.
[122] H. Y. Huang (1970): Unied approach to quadratically convergent al-
gorithms for function minimization, Journal of Optimization Theory
and Applications 5, 405-423.
[123] G. W. Johnson e N. H. Austria (1983): A quasi-Newton method em-
ploying direct secant updates of matrix factorizations, SIAM Journal
on Numerical Analysis 20, 315-325.
[124] N. Karmarkar (1984): A new polynomial-time algorithm for linear
programming, Combinatorica 4, 373-395.
[125] C. T. Kelley e E. W. Sachs (1987): A quasi-Newton method for ellip-
tic boundary value problems, SIAM Journal on Numerical Analysis
24, 516 - 531.
[126] L. S. Lasdon (1982), Reduced gradient methods, in Nonlinear Op-
timization 1981 (M. J. D. Powell, ed.), Academic Press, New York,
235-242.
[127] L. Lasdon (1985): Nonlinear programming algorithms - applications,
software and comparisons, em Numerical Optimization 1984 (P.
T. Boggs, R. H. Byrd e R.B.Schnabel eds.), SIAM Publications,
Philadelphia, 41-70.
[128] L. S. Lasdon, A. D. Warren, A. Jain e M. Ratner (1978): Design and
testing of a generalized reduced gradient code for nonlinear program-
ming, ACM Transactions on Mathematical Software 4, 34-50.
BIBLIOGRAPHY 249
[129] D. Luenberger (1986): Linear and nonlinear programming, Addison-
Wesley, New York.
[130] L. Luksan (1994): Inexact trust region method for large sparse sys-
tems of nonlinear equations, por aparecer em Journal of Optimization
Theory and Applications.
[131] N. Maratos (1978): Exact penalty function algorithms for nite-
dimensional and control optimization problems, Ph. D. Thesis, Uni-
versity of London, England.
[132] J. M. Martnez (1984): A quasiNewton method with modication
of one column per iteration, Computing 33, 353362.
[133] J. M. Martnez (1990): A family of quasi-Newton methods for non-
linear equations with direct secant updates of matrix factorizations,
SIAM Journal on Numerical Analysis 27, 1034-1049.
[134] J. M. Martnez (1990): Local convergence theory of inexact Newton
methods based on structured least change updates, Mathematics of
Computation 55, 143-168.
[135] J. M. Martnez (1992): On the relation between two local conver-
gence theories of least change secant update methods, Mathematics
of Computation 59, 457481.
[136] J. M. Martnez (1992): Fixed-Point Quasi-Newton methods, SIAM
Journal on Numerical Analysis 29, 14131434.
[137] J. M. Martnez (1993): A theory of secant preconditioners, Mathe-
matics of Computation 60, 681698.
[138] J. M. Martnez (1995): An extension of the theory of secant precondi-
tioners, Journal of Computational and Applied Mathematics 60, pp.
115-125.
[139] J. M. Martnez (1993): On the Convergence of the Column-Updating
Method, Matem atica Aplicada e Computacional 12, 83-94.
[140] J. M. Martnez (1994): Local minimizers of quadratic functions on
Euclidean balls and spheres, SIAM Journal on Optimization 4, 159
-176.
250 BIBLIOGRAPHY
[141] J. M. Martnez e L. Qi (1995): Inexact Newton methods for solving
nonsmooth equations, Journal of Computational and Applied Math-
ematics 60, pp. 127-145.
[142] J. M. Martnez e S. A. Santos (1995): A trust region strategy for
minimization on arbitrary domains, Mathematical Programming 68,
pp. 267-302.
[143] J. M. Martnez e L. T. Santos (1998): Some new theoretical results on
recursive quadratic programming algorithms, Journal of Optimiza-
tion Theory and Applications 97, pp. 435-454.
[144] J. M. Martnez e S. A. Santos (1997): Convergence results on an
algorithm for norm constrained regularization and related problems,
RAIRO Operations Research 31, pp. 269-294.
[145] G. P. McCormick (1983): Nonlinear programming; theory, algorithms
and applications, John Wiley & Sons, New York.
[146] R. E. Moore (1991): Global optimization to prescribed accuracy,
Computers and Mathematics with Applications 21, 25-39.
[147] J. J. More (1983): Recent developments in algorithms and software
for trust region methods, in Mathematical Programming Bonn 1982 -
The state of art, (A. Bachem, M. Gr otschel e B. Korte, eds.), 258-287,
Mathematical Programming Society, Bonn.
[148] J. J. More e D. C. Sorensen (1983): Computing a trust region step,
SIAM Journal on Scientic and Statistical Computing 4, 553-572.
[149] J.J. More e G. Toraldo (1991): On the solution of large quadratic
programming problems with bound constraints, SIAM Journal on
Optimization 1, 93-113.
[150] W. Murray (1969): Constrained Optimization, Ph. D. Thesis, Uni-
versity of London.
[151] W. Murray (1969): An algorithm for constrained minimization, em
Optimization (R. Fletcher, ed.), Academic Press, London e New York,
247-258.
[152] W. Murray e M. W. Wright (1978): Projected Lagrangian methods
based on the trajectories of penalty and barrier functions, Report
SOL 78-23, Department of Operations Research, Stanford University.
BIBLIOGRAPHY 251
[153] W. Murray e M. H. Wright (1980): Computation of the search di-
rection in constrained optimization algorithms, Report SOL 80-2,
Department of Operations Research, Stanford University.
[154] R. B. Murtagh e M. A. Saunders (1977): MINOS Users Guide, Re-
port SOL 77-9, Department of Operations Research, Stanford Uni-
versity.
[155] R. B. Murtagh e M. A. Saunders (1978): Large-scale linearly con-
strained optimization, Mathematical Programming 14, 41-72.
[156] R. H. Nickel e J. W. Tolle (1989): A Sparse Sequential Quadratic
Programming Algorithm, Journal of Optimization Theory and Ap-
plications 60, 453-473.
[157] J. Nocedal (1993): Theory of algorithms for unconstrained optimiza-
tion, Acta Numerica 1, 199-242.
[158] J. Nocedal e M. L. Overton (1985): Projected Hessian Updating
Algorithms for Nonlinearly Constrained Optimization, SIAM Journal
on Numerical Analysis 22, 821-850.
[159] J. M. Ortega e W. G. Rheinboldt (1970): Iterative Solution of Non-
linear Equations in Several Variables, Academic Press, New York.
[160] E. R. Panier e A. L. Tits (1991): Avoiding the Maratos eect by
means of a nonmonotone line search I. General constrained problems,
SIAM Journal on Numerical Analysis 28, 1183-1195.
[161] M. J. D. Powell (1969): A method for nonlinear constraints in min-
imization problems, em Optimization, (R. Fletcher, ed.), Academic
Press, London and New York, 283-298.
[162] M. J. D. Powell (1970): A hybrid method for nonlinear equations, em
Numerical methods for nonlinear algebraic equations (P. Rabinovitz,
ed.), Gordon and Breach, New York, 87-114.
[163] M. J. D. Powell (1977): A fast algorithm for nonlinearly con-
strained optimization calculations, em Numerical Analysis (Proceed-
ings, Dundee 1977) (G. A. Watson ed.), Lecture Notes in Mathematics
630, Springer-Verlag, Berlin, Heidelberg and New York, 144-157.
[164] M. J. D. Powell (1978): The convergence of variable metric methods
for nonlinearly constrained optimization calculations, em Nonlinear
252 BIBLIOGRAPHY
Programming 3 (O. L. Mangasarian, R. R. Meyer e S. M. Robinson,
eds.), Academic Press, London and New York, 27-63.
[165] M. J. D. Powell (1985): How bad are the BFGS and the DFP method
when the objective function is quadratic?, University of Cambridge,
DAMTP Report 85/NA4.
[166] M. J. D. Powell (1978): Algorithms for nonlinear constraints that use
Lagrangian functions, Mathematical Programming 14, 224-248.
[167] M. J. D. Powell (1985): The performance of two subroutines for con-
strained optimization on some dicult test problems, em Numerical
Optimization 1984 (P. T. Boggs, R. H. Byrd e R. B. Schnabel, eds.),
SIAM, Philadelphia, 160-177.
[168] M. J. D. Powell e Y. Yuan (1986): A recursive quadratic pro-
gramming algorithm that uses dierentiable exact penalty functions,
Mathematical Programming 35, 265-278.
[169] L. Qi (1995): Superlinearly convergent approximate Newton meth-
ods for LC
1
optimization problems, por aparecer em Mathematical
Programming.
[170] M. Raydan (1993): On the Barzilai and Borwein choice of steplength
for the gradient method, IMA Journal of Numerical Analysis 13,
321-326.
[171] C. H. Reinsch (1971): Smoothing by spline functions II, Numerische
Mathematik 16, 451-454.
[172] K. Ritter (1973): A superlinearly convergent method for minimiza-
tion problems with linear inequality constraints, Mathematical Pro-
gramming 4, 44-71.
[173] K. Ritter (1975): A method of conjugate direction for linearly con-
strained nonlinear programming problems, SIAM Journal on Numer-
ical Analysis 12, 274-303.
[174] K. Ritter (1980): Convergence and superlinear convergence of al-
gorithms for linearly constrained minimization problems, em Non-
linear Optimization: Theory and Algorithms, Part II ( L. C. W.
Dixon, E. Spedicato e G. P. Szeg o, editores), Birkh auser, Boston,
Massachusetts, 221-251.
BIBLIOGRAPHY 253
[175] R. T. Rockafellar (1974): Augmented Lagrange multiplier functions
and duality in nonconvex programming, Siam Journal on Control 12,
268-285.
[176] R. T. Rockafellar (1990): Computational schemes for solving large
scale problems in extended linear-quadratic programming, Mathe-
matical Programming 48, 447-474.
[177] R. T. Rockafellar e R. J. Wets (1990): Generalized linear-quadratic
problems of deterministic and stochastic optimal control in discrete
time, SIAM Journal on Control and Optimization 28, 810-822.
[178] J. B. Rosen (1960): The gradient projection method for nonlinear
programming, part I. Linear constraints, SIAM Journal on Applied
Mathematics 9, 181-217.
[179] Y. Saad e M. H. Schultz (1986): GMRES: A generalized minimal
residual algorithm for solving nonsymmetric linear systems, SIAM
Journal on Numerical Analysis 7, 856-869.
[180] S. A. Santos e D. C. Sorensen (1995): A new matrix-free algorithm
for the large-scale trust-region subproblem, em prepara c ao.
[181] R. W. H. Sargent (1974): Reduced-gradient and Projection Methods
for Nonlinear Programming, em Numerical Methods for Constrained
Optimization (P.E.Gill and W.Murray eds.), Academic Press, New
York, 149-174.
[182] K. Schittkowski (1980): Nonlinear Programming Codes, Lecture
Notes in Economics and Mathematical Systems 183, Springer-Verlag,
Berlin, Heidelberg and New York.
[183] K. Schittkowski (1981): The nonlinear programming method of Wil-
son, Han and Powell with an augmented Lagrangian type line search
function, Numerische Mathematik 38, 83-114.
[184] V. E. Shamanski (1967): A modication of Newtons method, Ukrain
Mat. Z., 19, 133-138.
[185] D. F. Shanno e K. H. Phua (1989): Numerical Experience with
Sequential Quadratic Programming Algorithms for Equality Con-
strained Nonlinear Programming, ACM Transactions on Mathemat-
ical Software 15, 49-63.
254 BIBLIOGRAPHY
[186] S. Smith e L. Lasdon (1992): Solving large sparse nonlinear programs
using GRG, ORSA Journal on Computing 4, 1-15.
[187] D. C. Sorensen (1982): Newtons method with a model trust region
modication, SIAM Journal on Numerical Analysis 19, 409-426.
[188] D. C. Sorensen (1994): Minimization of a large scale quadratic func-
tion subject to an ellipsoidal constraint, Technical Report, Depart-
ment of Computational and Applied Mathematics, Rice University.
[189] R. Swanepoel (1983): Determination of the thickness and optical
constants of amorphous silicon, J. Phys. E: Sci. Instrum. 16, 1214-
1222.
[190] R. A. Tapia (1977): Diagonalized multiplier methods and quasi-
Newton methods for constrained optimization, Journal of Optimiza-
tion Theory and Applications 22, 135-194.
[191] A. N. Tikhonov e V. Y. Arsenin (1977): Solutions of ill-posed prob-
lems, John Wiley and Sons, New York and Toronto, 1977.
[192] Ph. L. Toint (1986): Numerical solution of large sets of algebraic
nonlinear equations, Mathematics of Computation 16, 175 - 189.
[193] R. J. Vanderbei, M. J. Meketon e B. A. Freedman (1986): A modi-
cation of Karmarkars linear programming algorithm, Algorithmica
1, 395-407.
[194] S. A. Vavasis (1991): Nonlinear optimization, Oxford University
Press, Oxford.
[195] C. R. Vogel (1990): A constrained least-squares regularization
method for nonlinear ill-posed problems, SIAM Journal on Control
and Optimization 28, 34-49.
[196] H. F. Walker (1992): A GMRES-backtracking Newton iterative
method, Proceedings of the Copper Mountain Conference on Itera-
tive Methods, April 1992.
[197] D. J. Wilde e C. S. Beightler (1967): Foundations of Optimization,
Prentice Hall, Englewood Clis, N.J.
[198] R. B. Wilson (1963): A Simplicial Algorithm for Concave Program-
ming, Ph. D. Dissertation, Harvard University, Graduate School of
Business Administration.
BIBLIOGRAPHY 255
[199] P. Wolfe (1961): A duality theorem for non-linear programming,
Quarterly of Applied Mathematics 19, 239-244.
[200] P. Wolfe (1963): Methods of nonlinear programming, em Recent Ad-
vances in Mathematical Programming (R.L.Graves e P. Wolfe eds.),
McGraw Hill, New York, 67-86.
[201] H. Wolkowicz (1994): A semidenite framework for trust region sub-
problems with applications to large scale minimization, Technical
Report, University of Waterloo.
[202] M. H. Wright (1976): Numerical Methods for Nonlinearly Con-
strained Optimization, Ph. D. Thesis, Stanford University, California.
[203] A. Xavier (1993): Penaliza c ao hiperb olica, Tese de Doutorado,
COPPE, Universidade Federal do Rio de Janeiro.
[204] H. Yabe, N. Yamaki e S. Takahashi (1991): Global convergence of se-
quential inexact QP method for constrained optimization, SUT Jour-
nal of Mathematics 27, 127-138.
[205] T. J. Ypma (1984): Local convergence of inexact Newton methods,
SIAM Journal on Numerical Analysis 21, 583-590.
[206] T. J. Ypma (1993): On the history of Newtons method, Contributed
paper at the Workshop on linear and nonlinear iterative methods and
verication of solution, Matsuyama, Jap ao, julho 1993.
[207] C. Zhu e R. T. Rockafellar (1995): Primal-dual projected gradient
algorithm for extended linear-quadratic programming, por aparecer
em SIAM Journal on Optimization.

Vous aimerez peut-être aussi