Académique Documents
Professionnel Documents
Culture Documents
ETODOS COMPUTACIONAIS
DE OTIMIZAC
AO
Jose Mario Martnez
Sandra Augusta Santos
Departamento de Matem atica Aplicada
IMECC-UNICAMP
1995
Atualizado em dezembro de 1998
INDICE
1. INTRODUC
AO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.1 UMA CLASSIFICAC
AO INFORMAL . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 UM PROBLEMA DE ESTIMAC
AO DE PAR
AMETROS . . . . . . 3
1.3 DEFININDO MINIMIZADORES . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2. CONDIC
OES DE OTIMALIDADE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.1 RESTRIC
OES EM FORMATO GERAL . . . . . . . . . . . . . . . . . . . . . . 12
2.2 RESTRIC
OES DE IGUALDADE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.3 RESTRIC
OES DE DESIGUALDADE . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.4 RESTRIC
OES DE IGUALDADE E DESIGUALDADE . . . . . . . 22
3. CONVEXIDADE E DUALIDADE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
3.1 CONVEXIDADE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
3.2 DUALIDADE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
4. MINIMIZAC
AO DE QUADR
ATICAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
4.1 QUADR
ETODOS ITERATIVOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
4.2 QUADR
ATICAS EM BOLAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
4.3 QUADR
ATICAS EM CAIXAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
5. SISTEMAS DE EQUAC
OES N
AO-LINEARES . . . . . . . . . . . . . . . . . . . . 73
5.1 O M
ETODO DE NEWTON . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
5.2 M
ETODOS QUASE-NEWTON . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
5.3 M
ENCIA LOCAL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
5.4.1 O TEOREMA DAS DUAS VIZINHANC AS . . . . . . . . . . . . . 85
5.4.2 CONVERG
ENCIA QUADR
ATICA DE NEWTON . . . . . . 87
5.4.3 CONVERG
ECNICAS DE MINIMIZAC
AO GLOBAL . . . . . . . . . . . . . . . . . . 152
9. RESTRIC
OES LINEARES . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 155
9.1 IGUALDADES . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 156
9.2 ESTRAT
EGIA DE RESTRIC
OES ATIVAS . . . . . . . . . . . . . . . . . . 158
9.3 SAINDO DA FACE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161
9.4 REDUC
AO A CAIXAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163
9.5 PONTOS INTERIORES . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 166
10. PENALIDADE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171
10.1 M
ERITO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 210
12.4 DECR
ATICA . . . . . . . . . . . . . . . . . . . . . . . . . 226
12.9 OUTRAS FUNC
OES DE M
ERITO . . . . . . . . . . . . . . . . . . . . . . . . . 229
12.10 NOTAS HIST
ORICAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 233
BIBLIOGRAFIA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 237
iii
Chapter 1
Introdu cao
Otimiza c ao e um problema matem atico com muitas aplica c oes no mundo
real. Consiste em encontrar os mnimos ou m aximos de uma fun c ao de
v arias vari aveis, com valores dentro de uma determinada regi ao do espa co
multi-dimensional. Os respons aveis pela tomada de decis oes nos mais vari-
ados campos da atividade humana defrontam-se, cotidianamente, com esse
tipo de necessidade.
`
As vezes, a ndole do problema, a demanda de re-
sultados precisos, ou a pr opria curiosidade, leva a formalizar vari aveis, re-
stri c oes e objetivos, de maneira que a natureza matem atica do problema
emerge. Esse e o processo de modelagem, que descobre isomorsmos entre
a realidade emprica e o idealismo dos objetos matem aticos. No entanto,
a correspondencia entre experiencia e modelo formal est a longe de ser per-
feita: a tradu c ao est a sujeita a erros, simplica c oes e falhas de comunica c ao.
Notavelmente, a problem atica de adequar um modelo matem atico a uma
situa c ao real tambem pode ser formulada como um problema matem atico,
quase sempre de otimiza c ao.
1.1 Uma classica cao informal
O problema a ser considerado neste livro e o seguinte:
Minimizar f(x) sujeita a x IR
n
. (1.1.1)
A fun c ao f e chamada fun c ao objetivo e o conjunto , freq uentemente
denido por um conjunto de igualdades e desigualdades, e o conjunto factvel.
Os pontos de ser ao os pontos factveis de (1.1.1).
1
2 CHAPTER 1. INTRODUC
AO
De fato, estamos t ao interessados em minimizar como em maximizar fun c oes,
mas falaremos apenas de minimizar dado que, claramente, maximizar f(x)
em uma regi ao qualquer do espa co IR
n
e equivalente a minimizar f(x) na
mesma regi ao. As solu c oes x
) s ao os mnimos do problema.
Quase sempre assumiremos a continuidade de f e, com freq uencia um pouco
menor, a existencia de derivadas primeiras contnuas.
`
As vezes, vamos supor
tambem que f tem derivadas segundas contnuas.
Conforme as caractersticas do conjunto , teremos os diferentes problemas
de otimiza c ao:
Problema
IR
n
minimiza c ao sem restri c oes
x IR
n
[ l x u minimiza c ao em caixas
x IR
n
[ Ax = b, A IR
mn
minimiza c ao com restri c oes
lineares de igualdade
x IR
n
[ Ax = b, Cx d minimiza c ao com restri c oes
lineares
x IR
n
[ h(x) = 0, h : IR
n
IR
m
minimiza c ao com restri c oes
de igualdade
x IR
n
[ h(x) = 0, h : IR
n
R
m
problema geral de
e g(x) 0, g : IR
n
IR
p
programa c ao n ao linear
Quando v e w s ao vetores, a nota c ao v w signicar a sempre v
i
w
i
para
todas suas coordenadas. Assim, quando falamos da caixa l x u,
entendemos o conjunto dos x IR
n
tais que l
i
x
i
u
i
para todo i =
1, . . . , n. O problema geral de programa c ao n ao linear pode ser reduzido
sempre a uma forma padr ao mediante a introdu c ao de vari aveis de folga.
Com efeito, observamos que o conjunto dos x IR
n
tais que h(x) = 0 e
g(x) 0 coincide com o conjunto
x IR
n
[ h(x) = 0 e g(x) +z = 0 para algum z 0.
Portanto, o problema
Minimizar f(x) sujeita a h(x) = 0, g(x) 0, (1.1.2)
onde h : IR
n
IR
m
, g : IR
n
IR
p
, e equivalente a
Minimizar f(x) sujeita a h(x) = 0, g(x) +z = 0, z 0. (1.1.3)
1.2. UM PROBLEMA DE ESTIMAC
AO DE PAR
AMETROS 3
Agora, mudando os nomes de vari aveis e fun c oes, (1.1.3) tem a forma geral
Minimizar f(x) sujeita a h(x) = 0, x 0. (1.1.4)
A forma (1.1.4) de um problema de programa c ao n ao linear se denomina
forma padr ao. Quando um problema do tipo (1.1.2) e transformado na sua
forma padr ao, o n umero de vari aveis e aumentado em p.
`
As vezes, isso e
uma desvantagem. No entanto, a transforma c ao muitas vezes se justica
por considera c oes algortmicas, como veremos em captulos futuros.
Neste livro a enfase estar a colocada em fun c oes objetivo f(x) n ao lineares.
Quando f e linear (f(x) = c
T
x para algum c IR
n
) o problema de min-
imiza c ao com restri c oes lineares e chamado de problema de programa c ao
linear. Na sua forma padr ao, este problema e
Minimizar c
T
x
Ax = b
x 0 .
(1.1.5)
O conte udo deste livro se aplica a programa c ao linear, embora, pela especi-
cidade deste problema, muito desse conte udo seja superuo. Por outro lado,
as particularidades do problema (1.1.5) permitem um tratamento muito mais
rico e detalhado, que n ao ser a feito aqui. Em menor medida, essa observa c ao
vale tambem no caso em que a fun c ao objetivo e quadr atica e as restri c oes
lineares, chamado problema de programa c ao quadr atica.
1.2 Um problema de estima cao de parametros
Quando o ponto de partida e um problema real, podem existir v arios prob-
lemas matem aticos de otimiza c ao associados, vinculados a diferentes for-
mula c oes ou a diferentes tecnicas de resolu c ao. Nesta se c ao apresentamos
um problema de estima c ao de par ametros originado na
Otica, para o qual
exibimos algumas formula c oes sob o ponto de vista da otimiza c ao. Ver [189],
[33].
Um lme e um material muito no, cuja espessura, ndices de refra c ao e coe-
cientes de absor c ao se deseja estimar. Esses par ametros n ao s ao suscetveis
de medi c ao direta, ou seja, devem ser inferidos da medi c ao de outra magni-
tude fsica. O experimento que gera a medi c ao indireta consiste, brevemente,
no seguinte: coloca-se o material em cima de um substrato transparente e
atravessa-se lme e substrato com luz de diferentes comprimentos de onda.
4 CHAPTER 1. INTRODUC
AO
Para xar ideias, esses comprimentos podem ir desde 800 ate 2000, com in-
tervalos de 10, nas unidades adequadas. Para cada comprimento de onda ,
mede-se a transmiss ao T() [0, 1], isto e, o quociente, adimensional, entre
a luz que atravessa o lme e a luz emitida. Teoricamente, T() se relaciona
com a espessura (d), o coeciente de absor c ao (()) e o ndice de refra c ao
do lme (n()) atraves das seguintes f ormulas (por simplicidade, escrevemos
T = T(), n = n(), = ()):
T =
A
x
B
x +D
x
2
, (1.1.6)
onde
A
= 16s(n
2
+k
2
) (1.1.7)
B
= [(n + 1)
2
+k
2
][(n + 1)(n +s
2
) +k
2
] (1.1.8)
C
= [(n
2
1 +k
2
)(n
2
s
2
+k
2
) 2k
2
(s
2
+ 1)]2 cos
k[2(n
2
s
2
+k
2
) + (s
2
+ 1)(n
2
1 +k
2
)]2 sin (1.1.9)
D
= [(n 1)
2
+k
2
][(n 1)(n s
2
) +k
2
] (1.1.10)
= 4nd/, x = exp(d), k = /(4). (1.1.11)
Nas f ormulas (1.1.6)(1.1.11) s e o ndice de refra c ao do substrato, suposto
conhecido e constante para todo . O experimento fsico fornece uma tabela
de dados onde a coluna da esquerda s ao os comprimentos de onda
i
usados,
desde
1
= 800 ate
m
=
121
= 2000, e a coluna da direita est a formada
pelas medidas correspondentes de transmiss ao (T
i
). As f ormulas (1.1.6)
(1.1.11) denem a fun c ao te orica T(, d, n, ). Portanto, a primeira vista,
o objetivo parece ser encontrar d e n
i
,
i
, i = 1, . . . , m tais que, para todo
i = 1, . . . , m,
T(
i
, d, n
i
,
i
) = T
i
. (1.1.12)
Agora, para cada valor possvel da espessura d, a equa c ao (1.1.12) tem
duas inc ognitas, n
i
e
i
. Portanto, o mais prov avel e que tenha innitas
solu c oes e que, de fato, n ao seja difcil encontrar pelo menos uma. Por ex-
emplo, xando arbitrariamente n
i
e resolvendo (1.1.12) para a agora unica
inc ognita
i
. Claro que esse n ao pode ser o procedimento que resolva o
problema fsico. Fsicamente, o problema deve ter solu c ao unica, enquanto
da maneira descrita, innitas solu c oes diferentes poderiam ser encontradas.
De fato, os graus de liberdade inerentes a (1.1.12) s ao drasticamente reduzi-
dos incorporando informa c oes sicamente conhecidas, algumas obvias, sobre
d, e n. Essas informa c oes s ao:
1.2. UM PROBLEMA DE ESTIMAC
AO DE PAR
AMETROS 5
(a) Tanto a espessura como os coecientes n
i
e
i
s ao positivos. Mais ainda,
os ndices de refra c ao s ao maiores ou iguais a 1.
(b) () deve ser uma fun c ao decrescente e convexa (derivada segunda pos-
itiva).
(c) n() deve ser uma fun c ao decrescente e, tambem, com derivada segunda
positiva.
As condi c oes (a), (b) e (c) devem ser traduzidas como restri c oes do prob-
lema de estimar os par ametros. Ou seja, devem ser encontradas express oes
matem aticas envolvendo d,
i
e n
i
que espelhem essas condi c oes. Discretizando
as derivadas segundas de () e n(), essas express oes s ao:
d 0, n
i
1,
i
0 para todo i = 1, . . . , n; (1.1.13)
i+1
i
e n
i+1
n
i
para todo i = 1, . . . , m1; (1.1.14)
n
i
n
i1
+
n
i+1
n
i1
i+1
i1
(
i
i+1
) e
i
i1
+
i+1
i1
i+1
i1
(
i
i+1
)
(1.1.15)
para todo i = 2, . . . , m2.
Considerando o objetivo (1.1.12) e as restri c oes (1.1.13), (1.1.14) e (1.1.15),
o problema de estima c ao dos par ametros pode agora ser modelado assim:
Minimizar
m
i=1
[T(
i
, d, n
i
,
i
) T
i
]
2
sujeita a (1.1.13), (1.1.14) e (1.1.15).
(1.1.16)
Observamos que (1.1.16) e um problema de minimiza c ao com restri c oes lin-
eares onde h a 2m + 1 vari aveis. Se a tabela de dados (
i
, T
i
) obedecesse
perfeitamente ` as f ormulas te oricas deveria existir uma solu c ao de (1.1.16)
onde o valor da fun c ao objetivo seria 0. Com dados experimentais n ao
e isso o que acontece. De fato, o que se observa nesse caso, usando o
metodo adequado para resolver (1.1.16) e a apari c ao de solu c oes onde
a fun c ao objetivo toma um valor sensivelmente maior que 0. Isto se deve,
alem dos erros de medi c ao que neste caso s ao, provavelmente, desprezveis, a
que a suposi c ao substrato transparente com s constante e essencialmente
falsa. Com efeito, para determinadas zonas do espectro (valores de ) o sub-
strato usado tem um coeciente de absor c ao positivo (n ao e transparente)
e, portanto, para essas zonas as equa c oes (1.1.6)-(1.1.11) n ao se aplicam.
Pior ainda, a distin c ao entre valores de para os quais o substrato n ao e
6 CHAPTER 1. INTRODUC
AO
transparente daqueles para os quais e, n ao e totalmente clara. O grau de
aplicabilidade de (1.1.6)-(1.1.11) e de fato, um contnuo, variando entre a
aplicabilidade e a n ao aplicabilidade absoluta. Um experimento adicional,
que mede a transmiss ao produzida apenas pelo substrato (sem o lme), per-
mite quanticar o grau de aplicabilidade das f ormulas. Diremos, ent ao, que
algumas equa c oes (1.1.12) devem ser satisfeitas com um peso alto e outras
com um peso muito baixo. Atribuindo efetivamente um peso
i
> 0 a cada
equa c ao, de acordo com a transparencia do substrato para o comprimento
de onda
i
, o problema (1.1.16) e substitudo por
Minimizar
m
i=1
i
[T(
i
, d, n
i
,
i
)T
i
]
2
sujeita a (1.1.13), (1.1.14) e (1.1.15).
(1.1.17)
A atribui c ao de pesos ` as diferentes linhas da tabela original tem o efeito
pr atico de eliminar a inuencia dos pontos onde o modelo est a claramente
errado. Isto aumenta os graus de liberdade do sistema total, e possibilita a
existencia de muitas solu c oes de (1.1.17), onde a fun c ao objetivo tem prati-
camente o mesmo valor. O metodo de otimiza c ao encontrou uma dessas
solu c oes.
`
As vezes, pela observa c ao da solu c ao obtida, o fsico tem condi c oes
de decidir se ela e razo avel ou n ao. Neste problema particular, nosso exper-
imentador encontra uma caracterstica da fun c ao considerada indesej avel
e sem sentido fsico: apesar de ser decrescente e convexa, a fun c ao obtida
est a formada por 4 segmentos de reta, violando uma suavidade adicional
esper avel no coeciente de absor c ao real. Como os pontos de quebra dos
diferentes segmentos de reta podem ser considerados como pontos onde a
curvatura da fun c ao e muito grande, optamos por limitar o raio de curvatura
de e incluir explicitamente essa limita c ao no modelo. O c alculo elementar
nos ensina que o raio de curvatura R() de () e dado por
1
R()
=
()
(1 +
()
2
)
3
2
. (1.1.18)
Discretizando
(
i
)
(1 +
(
i
)
2
)
3
2
, (1.1.19)
onde as derivadas devem ser interpretadas como sua discretiza c ao usando
i1
,
i+1
e
i
.
Acrescentando (1.1.19) no modelo (1.1.17) passamos a ter m 2 restri c oes
adicionais, todas elas n ao lineares. O problema cou sensivelmente mais
1.3. DEFININDO MINIMIZADORES 7
difcil, mas sua solu c ao tem maiores chances de possuir sentido fsico. Uma
alternativa, motivada pelo fato de que, estritamente falando, a cota e
arbitr aria, consiste em incorporar as restri c oes (1.1.19) na fun c ao objetivo.
Assim, a fun c ao objetivo de (1.1.17) passaria a ser
m
i=1
i
[T(
i
, d, n
i
,
i
) T
i
]
2
+
m1
i=2
(
i
)
(1 +
(
i
)
2
)
3
2
. (1.1.20)
Em (1.1.20), e um par ametro que castiga o fato de se ter uma curvatura
grande em
i
. Desta maneira, n ao e necess ario acrescentar as restri c oes
(1.1.19) no problema (1.1.17).
A inclus ao de (1.1.19) na sua forma original ou sob a forma (1.1.20) reduz,
claramente, os graus de liberdade do problema e, em conseq uencia, aumenta
a probabilidade de encontrar coecientes com sentido fsico. Se isso e efeti-
vamente conseguido depende de (muita) experimenta c ao numerica, di alogo
com os cientistas experimentais e sensibilidade especca. A constru c ao de
um bom modelo de otimiza c ao raramente se esgota em dois ou tres passos
de di alogo.
1.3 Denindo minimizadores
Daremos sentidos precisos aos termos minimizador e mnimo usados nas
se c oes anteriores. Basicamente, veremos que esses termos podem ter dois
signicados:
(a) Dizemos que x
) f(x) para
todo x . Neste caso, f(x
) e chamado mnimo de f em .
(b) Dizemos que x
| .
Tambem, costuma-se dizer que x
| .
Claramente, todos os minimizadores globais tambem s ao minimizadores lo-
cais.
E f acil ver que, por outro lado, apesar de poder admitir muitos mini-
mizadores globais, o valor do mnimo global e sempre o mesmo. Por exemplo,
numa fun c ao constante, todos os pontos de s ao minimizadores globais, mas
em todos eles o valor de f e igual.
8 CHAPTER 1. INTRODUC
AO
Lembramos que um conjunto compacto e tal que toda seq uencia x
k
admite uma subseq uencia convergente. O limite dessa subseq uencia deve
pertencer a . Por outro lado, em IR
n
, os conjuntos compactos s ao ex-
atamente os fechados e limitados. Como a imagem inversa de conjuntos
fechados por fun c oes contnuas e fechada, o conjunto factvel do problema
geral de programa c ao linear e fechado no caso usual em que as fun c oes g
i
e
h
i
s ao contnuas. Portanto, para ser compacto, esse conjunto precisa, ape-
nas, ser limitado. O seguinte teorema, de prova bastante simples, e o mais
importante da minimiza c ao global.
Teorema 1.3.1 - Bolzano-Weierstrass
Se e compacto, e f : IR e contnua, ent ao existe x
minimizador
global do problema (1.1.1).
Prova: Consideremos primeiro a possibilidade de que f n ao seja limitada
inferiormente em . Ent ao, para cada k ^, existe x
k
tal que
f(x
k
) k,
portanto,
lim
k
f(x
k
) = . (1.1.21)
Como e compacto, existe K
1
um subconjunto innito de ^ tal que a
subseq uencia x
k
kK
1
converge a um ponto de , digamos x
. Pela con-
tinuidade de f, isto implica que
lim
kK
1
f(x
k
) = f(x
),
o que entra em contradi c ao com (1.1.21).
Podemos aceitar, portanto, que f e limitada inferiormente em . Seja
= inf
x
f(x) > .
Pela deni c ao de nmo, para todo k ^, existe x
k
tal que
f(x
k
) +
1
k
,
portanto
lim
k
f(x
k
) = .
1.3. DEFININDO MINIMIZADORES 9
Seja x
k
kK
1
uma subseq uencia convergente de x
k
e seja x
seu limite.
Ent ao, pela continuidade de f,
= lim
kK
1
f(x
k
) = f(x
).
Ou seja, f(x
(x)
T
= (
f
x
1
(x), . . . ,
f
x
n
(x))
T
.
Indicamos, como e usual, f C
k
() para expressar que f tem derivadas
contnuas ate a ordem k no aberto que contem . A express ao f C
k
indica que f tem derivadas contnuas ate a ordem k num aberto que contem
o domnio n ao especicado de f.
A nota c ao A 0 para A IR
nn
indica que A e semidenida positiva. Da
mesma forma, A > 0 signica que A e denida positiva.
2.1 Restri c oes em formato geral
Consideremos o problema
Minimizar f(x)
x .
(2.1.1)
As curvas no conjunto desempenham um papel importante na deriva c ao
de condi c oes pr aticas de otimalidade. A primeira condi c ao de otimalidade
que obteremos est a baseada apenas no comportamento da fun c ao objetivo
em cima de curvas factveis que passam pelo ponto considerado. Apesar de
sua generalidade, esta condi c ao de otimalidade e usada no desenvolvimento
de algoritmos modernos de minimiza c ao (pontos limite desses algoritmos
satisfazem a condi c ao). Ver [142], [144].
Deni c ao 2.1.1
Dado x
.
Deni c ao 2.1.2
Dado x
a uma
fun c ao : [0, ] tal que > 0, (0) = x
e C
k
[0, ].
Teorema 2.1.3 - Condi c ao necess aria de primeira ordem baseada
em curvas
Seja x
. Ent ao f(x
)
T
(0) 0.
2.1. RESTRIC
OES EM FORMATO GERAL 13
Prova: Denimos : [0, ] IR por (t) = f((t)). Como x
e mini-
mizador local, existe
1
(0, ) tal que (t) (0) para todo t (0,
1
).
Assim, ((t) (0))/t 0 para todo t (0,
1
) e, ent ao,
(0) 0. Mas,
pela regra da cadeia,
(t) = f
((t))
(t),
portanto f((0))
T
(0) = f(x
)
T
(0) 0. QED
Corol ario 2.1.4
Seja x
) = 0.
Exerccio 2.1: Demonstrar o Corol ario 2.1.4.
Exerccio 2.2: Provar que no Corol ario 2.1.4 e suciente que f tenha
derivadas para obter a tese.
Corol ario 2.1.5
Seja x
minimizador de f em IR
n
. Ent ao f(x
) = 0.
Teorema 2.1.6 - Condi c ao necess aria de segunda ordem baseada
em curvas.
Seja x
, f(x
)
T
(0) =
(0) = 0, ent ao
(0) 0.
Prova: A prova do item (a) e a dada do Teorema 2.1.3. Em (b), quando
(0)t
2
+ o(t
2
), onde lim
t0
o(t
2
)/t
2
= 0.
Portanto,
lim
t0
(t) (0)
t
2
=
1
2
(0).
Por ser x
(0) 0. QED
Exerccio 2.3: Generalizar o Teorema 2.1.6, denindo o teorema da condi c ao
necess aria de otimalidade de ordem k baseada em curvas.
Deni c ao 2.1.7
14 CHAPTER 2. CONDIC
OES DE OTIMALIDADE
Dado x , dizemos que e uma curva em de classe C
k
passando por x
se : [, ] , > 0, (0) = x e C
k
.
Lema 2.1.8
Se x
, ent ao f(x
)
T
(0) = 0.
Prova: Denimos
1
: [0, ] por
1
(t) = (t) e
2
: [0, ] por
2
(t) = (t). Pelo Teorema 2.1.3,
f(x
)
T
1
(0) 0 e f(x
)
T
2
(0) 0.
Mas
1
(0) =
(0) e
2
(0) =
)
T
(0) = 0. QED
Corol ario 2.1.9 - Condi c ao necess aria de segunda ordem para x
no interior de (ou = IR
n
).
Seja x
ent ao f(x
) = 0 e
2
f(x
) 0.
Prova: Seja d IR
n
, d ,= 0, arbitr ario. Seja : [, ] a curva denida
por (t) = x
)
T
d f(x
)
T
(0) = 0.
Como d e arbitr ario, segue que f(x
) = 0. Denindo : [, ] IR por
(t) = f[(t)], temos
(0) = f(x
)
T
(0) =
(0)
T
2
f(x
(0) = d
T
2
f(x
)d.
Novamente, a arbitrariedade de d implica em
2
f(x
) 0. QED
Teorema 2.1.10 - Condi c ao suciente de segunda ordem para x
no interior de (ou = IR
n
) Seja f C
2
() e x
ponto interior de
tal que f(x
) = 0 e
2
f(x
) > 0. Ent ao x
, como
f(x
) = 0, temos:
f(x) = f(x
) +
1
2
(x x
)
T
2
f(x
)(x x
) +o(|x x
|
2
) ,
2.2. RESTRIC
OES DE IGUALDADE 15
onde lim
xx
o(|x x
|
2
)/|x x
|
2
= 0 e | | e uma norma qualquer em
IR
n
. Como
2
f(x
,
(x x
)
T
2
f(x
)(x x
) a|x x
|
2
> 0 .
Logo, f(x) f(x
) +
a
2
|x x
|
2
+o(|x x
|
2
). Portanto, para x ,= x
,
f(x) f(x
)
|x x
|
2
a
2
+o(1),
onde o(1)
o(xx
2
)
xx
2
tende a 0 quando x x
,
f(x) f(x
)
|x x
|
2
a
4
> 0.
Logo, f(x) > f(x
, x ,= x
. QED
Exerccio 2.4: Encontrar exemplos onde:
(a) x
) ,= 0.
(b) x
) = 0 mas
2
f(x
) n ao e
semidenida positiva.
(c) e aberto, f(x
) = 0 mas x
n ao e minimizador local.
(d) e aberto, f(x
) = 0,
2
f(x
) 0 mas x
n ao e minimizador
local.
(e) e aberto, x
) n ao e denida
positiva.
2.2 Restri c oes de igualdade
Consideremos o problema de minimiza c ao com restri c oes gerais de igual-
dade:
Minimizar f(x)
h(x) = 0
(2.2.1)
onde h : IR
n
IR
m
. Como sempre, chamamos ao conjunto factvel do
problema. Neste caso = x IR
n
[ h(x) = 0.
16 CHAPTER 2. CONDIC
OES DE OTIMALIDADE
Deni c ao 2.2.1 Se x , chamamos conjunto tangente a por x (deno-
tado por M(x)) ao conjunto dos vetores tangentes a curvas em passando
por x, ou seja:
M(x) = v IR
n
[ v =
(x) =
_
_
_
_
h
1
x
1
(x) . . .
h
1
xn
(x)
.
.
.
hm
x
1
(x) . . .
hm
xn
(x)
_
_
_
_
=
_
_
_
h
1
(x)
.
.
.
h
m
(x)
_
_
_ =
_
_
_
h
1
(x)
T
.
.
.
h
m
(x)
T
_
_
_ ,
podemos relacionar M(x) com o n ucleo do Jacobiano de h(x), denotado por
^(h
(x)).
Prova: Seja v M(x) e : [, ] tal que
(0) = v, (0) = x.
Denimos (t) = h((t)), para todo t [, ]. Portanto, (t) = 0 para
todo t [, ]. Logo,
(t) (
1
(t), . . . ,
m
(t))
T
= 0 para todo t
(, ). Mas, pela regra da cadeia,
(t) = h
((t))
(t), portanto
h
((t))
(t) = 0
para todo t (, ). Logo, 0 = h
(x)
(0) = h
(x)).
QED
(x)) = IR
2
.
Deni c ao 2.2.3
Dizemos que x x IR
n
[ h(x) = 0 e um ponto regular se o posto de
h
(x) e igual a m (h
1
(x), . . . , h
m
(x) e um conjunto linearmente inde-
pendente).
Teorema 2.2.4
2.2. RESTRIC
OES DE IGUALDADE 17
Seja = x IR
n
[ h(x) = 0, h C
k
, x um ponto regular. Ent ao,
para todo v ^(h
(x)).
Prova: Seja v ^(h
(x)). Ent ao h
(x)
T
u) = 0 , (2.2.2)
Para x e v xos, este e um sistema de m equa c oes com m+1 vari aveis (u
IR
m
e t IR). Colocando u = 0, t = 0 temos uma solu c ao particular deste
sistema. O Jacobiano de (2.2.2) em rela c ao a u em t = 0 e h
(x)h
(x)
T
IR
mm
e e n ao singular pela regularidade de x. Logo, pelo Teorema da
Fun c ao Implcita, existe C
k
, denida em [, ], > 0, tal que (2.2.2)
se verica se e somente se u = (t). Portanto
h(x +tv +h
(x)
T
(t)) = 0 para todo t [, ] . (2.2.3)
Derivando (2.2.3) em rela c ao a t, para t = 0 temos h
(x)(v+h
(x)
T
(0)) = 0.
Como h
(x)h
(x)
T
(0) = 0. Mas h
(x)h
(x)
T
e n ao
singular, logo
(0) = 0.
Em conseq uencia, denindo : [, ] por
(t) = x +tv +h
(x)
T
(t),
temos que
(0) = v +h
(x)
T
(0) = v.
Assim, e a curva procurada. Como v e arbitr ario, temos que ^(h
(x))
M(x). Portanto, M(x) = ^(h
(x)). QED
Como conseq uencia do Teorema 2.2.4 temos o seguinte resultado:
Teorema 2.2.5
Se x
) ^(h
(x
)).
Prova: Seja v ^(h
(x
)). Como x
tal que
)
T
v = 0. QED
Teorema 2.2.6 - Multiplicadores de Lagrange
18 CHAPTER 2. CONDIC
OES DE OTIMALIDADE
Se x
) +
m
i=1
i
h
i
(x
) = 0. (
1
, . . . ,
m
s ao chamados mul-
tiplicadores de Lagrange do problema.)
Prova: Pelo Teorema 2.2.5, f(x
) ^(h
(x
) (h
(x
)
T
),
isto e, existe IR
m
tal que f(x
) +h
(x
)
T
= 0. Como x
e regular, o
Jacobiano h
(x
(x)
T
= 0
h(x) = 0
(2.2.4)
Esses pontos ser ao chamados estacion arios ou crticos. Naturalmente, os
pontos n ao regulares de tambem seriam candidatos a minimizador local.
Exerccio 2.5: Provar o Teorema 2.2.6 usando o seguinte argumento: como
x
) +
m
i=1
i
h
i
(x
) = 0.
Deni c ao 2.2.7
Chamamos Lagrangiano do problema (2.2.1) ` a fun c ao (x, ) = f(x) +
h(x)
T
.
Exerccio 2.8: Relacionar a n ao singularidade do Jacobiano do sistema
(2.2.4) com o comportamento de
2
xx
(x, ) no n ucleo de h
(x).
Exerccio 2.9: Dar um exemplo onde x
2
xx
(x
(x
)).
Prova: Pelo Teorema 2.2.6,
f(x
) +h
(x
)
T
= 0 (2.2.5)
Seja v ^(h
(x
((0) = x
) e tal que v =
(0). Tambem,
(0) ^(h
(x
(0) =
f(x
)
T
(0) =
(0)
T
2
f(x
(0) +f(x
)
T
(0) 0 (2.2.6)
Agora, denindo
i
(t) =
i
h
i
((t)), i = 1, . . . , m, temos que
i
(t) = 0 para
todo t (, ), portanto
i
(0) =
(0)
T
2
h
i
(x
(0) +
i
h
i
(x
(0) = 0 .
Logo
m
i=1
i
(0) =
(0)
T
m
i=1
2
h
i
(x
(0) +
T
h
(x
(0) = 0 . (2.2.7)
Somando (2.2.7) e (2.2.6), por (2.2.5) segue que
(0)
T
(
2
f(x
) +
m
i=1
2
h
i
(x
))
(0) 0.
Por ser v arbitr ario a prova est a completa. QED
Teorema 2.2.9 - Condi c oes sucientes de segunda ordem para re-
stri c oes de igualdade.
Se f, h C
2
, x
2
xx
(x, )y > 0
para todo y ^(h
(x
)), y ,= 0, ent ao x
= x(0) e usando as
condi c oes de otimalidade de MRI() e o Teorema da Fun c ao Implcita para
denir x(), provar que
f
i
(x(0)) =
i
, i = 1, . . . , m.
2.3 Restri c oes de desigualdade
Consideremos agora o problema de minimiza c ao com restri c oes gerais de
desigualdade:
Minimizar f(x)
c(x) 0
(2.3.1)
onde c : IR
n
IR
p
.
Deni c ao 2.3.1
Para cada x = x IR
n
[ c(x) 0, chamamos de restri c oes ativas
em x ` aquelas para as quais c
i
(x) = 0. Analogamente, chamamos restri c oes
inativas em x ` aquelas para as quais c
i
(x) < 0. Como na deni c ao 2.2.4,
chamaremos ponto regular a um ponto de onde os gradientes das restri c oes
ativas s ao linearmente independentes.
A prova do seguinte lema e evidente.
Lema 2.3.2
Se x
) = 0,
ent ao x
) = 0 e
c
i
(x
) +
iI
i
c
i
(x
) = 0 .
Prova: An aloga ` a do Teorema 2.2.6. QED
O Lemma 2.3.3 nos diz que o gradiente de f e combina c ao linear dos gradi-
entes das restri c oes ativas num minimizador local regular do problema. O
teorema seguinte mostra que sabemos algo sobre os sinais dos coecientes
dessa combina c ao linear.
Teorema 2.3.4 - Condi c oes Karush-Kuhn-Tucker (KKT).
Se x
) =
0 e c
i
(x
) +
iI
i
c
i
(x
) = 0 .
Prova: Tendo em vista o Lema 2.3.3, existem
i
IR, i I tais que
f(x
) +
iI
i
c
i
(x
) = 0 . (2.3.2)
Falta apenas mostrar que
i
0, i I. Suponhamos que exista k I tal
que
k
< 0. Chamemos
I
= x IR
n
[ c
i
(x) = 0, i I,
k
= x IR
n
[ c
i
(x) = 0, i I, i ,= k,
M
I
(x
) o conjunto tangente a
I
por x
e M
k
(x
) o conjunto tangente a
k
por x
. Pela regularidade de x
, c
k
(x
. Portanto, existe y M
k
(x
)
tal que
c
k
(x
)
T
y < 0 . (2.3.3)
Seja (t) uma curva em
k
passando por x
com
(0) = f(x
)
T
y. Logo, por (2.3.2), (2.3.3) e
k
< 0 segue que
ser minimizador
local. QED
2.4 Restri c oes de igualdade e desigualdade
Consideremos agora o problema geral de programa c ao n ao linear:
Minimizar f(x)
h(x) = 0
c(x) 0
(2.4.1)
onde h : IR
n
IR
m
e c : IR
n
IR
p
.
Podemos estabelecer condi c oes an alogas ` as do Teorema (2.3.4) para o prob-
lema (2.4.1). De maneira similar aos casos anteriores, denimos ponto reg-
ular do conjunto factvel como um ponto onde os gradientes das restri c oes
ativas s ao linearmente independentes.
Teorema 2.4.1 - Condi c oes Karush-Kuhn-Tucker gerais.
Seja x
) =
0. Suponhamos que h
i
(x
), . . . , h
m
(x
) c
i
(x
), i I e um con-
junto linearmente independente. Ent ao existem unicos
1
. . . ,
m
IR e
i
0 para todo i I tais que
f(x
) +
m
i=1
i
h
i
(x
) +
iI
i
c
i
(x
) = 0 .
Exerccio 2.13: Demonstrar o Teorema 2.4.1.
Desta forma, se x e um ponto regular e minimizador local para o problema
(2.4.1), denindo
i
= 0 se i , I, podemos reescrever as condi c oes KKT da
seguinte forma:
2.4. RESTRIC
OES DE IGUALDADE E DESIGUALDADE 23
f(x) +
m
i=1
i
h
i
(x) +
p
i=1
i
c
i
(x) = 0 (2.4.2)
h(x) = 0 (2.4.3)
i
c
i
(x) = 0 , i = 1, . . . , p (2.4.4)
i
0 , i = 1, . . . , p (2.4.5)
c
i
(x) 0 , i = 1, . . . , p (2.4.6)
As n + m + p equa c oes (2.4.2) - (2.4.4) formam um sistema n ao linear nas
inc ognitas x IR
n
, IR
m
e IR
p
. As solu c oes deste sistema que satis-
fazem (2.4.5) e (2.4.6) s ao os pontos estacion arios de (2.4.1)
Teorema 2.4.2 - Condi c oes necess arias de segunda ordem ( re-
stri c oes de igualdade e desigualdade).
Seja x
, excluindo os gradientes
daquelas restri c oes de desigualdade cujo multiplicador e zero. Ent ao, se e
s ao os vetores de multiplicadores de Lagrange dados no Teorema 2.4.1,
y
T
2
xx
(x
i=1
i
h
i
(x) +
p
i=1
i
c
i
(x) .
Exerccio 2.14: Demonstrar o Teorema 2.4.2.
Exerccio 2.16: Refazer os resultados deste captulo trocando minimizadores
por maximizadores.
Exerccio 2.17: Interpretar geometricamente todos os resultados deste
captulo, incluindo os relativos ao Exerccio 2.16.
Exerccio 2.18: Estudar o Lema de Farkas, de um texto adequado sobre
convexidade, e deduzir as condi c oes de otimalidade da programa c ao linear.
Observar que, desta maneira, a aplica c ao do Teorema 2.3.4 ` a programa c ao
linear n ao depende da regularidade do ponto. Usando esse resultado, provar
o resultado do Teorema 2.3.4 para minimiza c ao com restri c oes lineares sem
24 CHAPTER 2. CONDIC
OES DE OTIMALIDADE
a condi c ao de regularidade.
Exerccio 2.19: Desenhar um diagrama de conjuntos onde apare cam clara-
mente as rela c oes de inclus ao existentes entre pontos regulares, pontos n ao
regulares, minimizadores locais, minimizadores globais, pontos Karush-Kuhn-
Tucker e solu c oes do sistema n ao linear (2.4.2)-(2.4.4).
24 CHAPTER 2. CONDIC
OES DE OTIMALIDADE
Chapter 3
Convexidade e dualidade
Apesar da extensa an alise permitida pelos dois temas tratados neste captulo,
procuramos fazer uma abordagem sintetica para ambos. Nosso enfoque tem
em vista os aspectos te oricos que efetivamente contribuem para o desen-
volvimento de algoritmos pr aticos. Por exemplo, uma das propriedades
mais fortes obtidas com hip oteses de convexidade em um problema de min-
imiza c ao e que as condi c oes necess arias de otimalidade passam a ser su-
cientes. Em outras palavras, um ponto Karush-Kuhn-Tucker torna-se uma
solu c ao do problema. A teoria da dualidade, por sua vez, permite uma
abordagem do problema original sob um outro ponto de vista. O dual de
um problema de otimiza c ao tem como vari aveis quantidades associadas ` as
restri c oes do problema original. Em condi c oes adequadas, resolver o prob-
lema dual e equivalente a resolver o original (primal) e, ` as vezes, trabalhar
com o dual e mais f acil que com o primal. Mesmo em situa c oes onde o
primal e o dual n ao s ao equivalentes, problemas duais resol uveis fornecem
informa c oes uteis para resolver seus primais correspondentes. Do ponto de
vista te orico, convexidade e dualidade fornecem estruturas sob as quais re-
sultados relevantes sobre algoritmos e problemas podem ser obtidos. Por
exemplo, as condi c oes de otimalidade podem ser derivadas usando teoremas
de separa c ao de conjuntos convexos por hiperplanos (ver [91]). Por outro
lado, a teoria de convergencia de metodos importantes em programa c ao n ao
linear, como o metodo do Lagrangeano aumentado (captulo 10 deste livro)
e enriquecida pela considera c ao do problema dual (ver [175]).
25
26 CHAPTER 3. CONVEXIDADE E DUALIDADE
3.1 Convexidade
Um conjunto convexo se caracteriza por conter todos os segmentos cujos
extremos s ao pontos do conjunto. Se x e y s ao pontos de IR
n
, o segmento
que os une est a formado pelos pontos z da forma y+(xy) x+(1)y
com [0, 1]. Isso justica a seguinte deni c ao.
Deni c ao 3.1.1
O conjunto K IR
n
e chamado um conjunto convexo se para quaisquer
x, y K e para todo [0, 1], x + (1 )y K.
Uma caracteriza c ao util para conjuntos convexos e dada pelo seguinte teo-
rema:
Teorema 3.1.2
K e um conjunto convexo se, e somente se, para quaisquer x
1
, . . . , x
m
el-
ementos de K e para
i
[0, 1], i = 1, . . . , m tais que
m
i=1
i
= 1, a
combina c ao convexa
m
i=1
i
x
i
tambem e um elemento de K.
Exerccio 3.1: Demonstrar o Teorema 3.1.2.
Exerccio 3.1: Seja K IR
n
e | | uma norma arbitr aria.
(a) Provar que, se K e fechado e x IR
n
, o problema de minimizar |y x|
sujeito a y K tem solu c ao.
(b) Provar que, se K e convexo e | | e a norma euclidiana, a solu c ao desse
problema e unica. Nesse caso, a chamamos P
K
(x) (proje c ao de x em K).
(c) De agora em diante, K e convexo e fechado e a norma e a euclidiana.
Provar a propriedade do angulo obtuso: Para todo y K,
y P
K
(x), x P
K
(x)) 0.
(d) Provar a propriedade de aproxima c ao total: Para todo y K,
|y P
K
(x)| |y x|.
(e) Provar a propriedade de contra c ao: Para todo x, z IR
n
,
|P
K
(x) P
K
(z)| |x z|.
Deduzir a continuidade da fun c ao P
K
.
3.1. CONVEXIDADE 27
Apresentamos a seguir alguns resultados b asicos da teoria de convexidade.
Teorema 3.1.3
Se os conjuntos K
i
, i I, s ao convexos, ent ao K =
iI
K
i
tambem e
convexo.
Prova: Sejam x, y K =
iI
K
i
. Ent ao x, y K
i
, i I e como os con-
juntos K
i
, i I s ao convexos, para todo [0, 1], x+(1)y K
i
, i I.
Logo x + (1 )y K para todo [0, 1]. QED
Exerccio 3.2: Se A IR
n
, chamamos de fecho convexo de A ao conjunto
das combina c oes convexas dos pontos de A. Provar que o fecho convexo de
qualquer conjunto e convexo. Provar que o fecho convexo de A IR
n
est a
contido em qualquer convexo K tal que A K.
Deni c ao 3.1.4
Se K e um conjunto convexo, f : K IR, e uma fun c ao convexa se para
todo x, y K, [0, 1],
f(x + (1 )y) f(x) + (1 )f(y).
Deni c ao 3.1.5
Se K e um conjunto convexo, denominamos epigrafo de f : K IR ao
conjunto
(x, y) IR
n
IR [ x K, y f(x).
Teorema 3.1.6 A fun c ao f : K IR e convexa se, e somente se, o epigrafo
de f e convexo.
Prova: Suponhamos que f seja convexa e tomemos (x, x), (y, y) pontos
do epigrafo de f. Para [0, 1], como K e convexo, x + (1 )y K.
Agora, x + (1 ) y f(x) + (1 )f(y) f(x + (1 )y) pois f e
convexa. Logo (x, x) + (1 )(y, y) = (x + (1 )y, x + (1 ) y)
pertence ao epigrafo de f para todo [0, 1]. Portanto, o epigrafo e
convexo.
Suponhamos agora que f n ao seja convexa. Ent ao existem x, y K tais
que f(x + (1 )y) > f(x) + (1 )f(y) para algum [0, 1]. Assim,
(x, f(x)) e (y, f(y)) s ao pontos do epigrafo de f. Ent ao
(x, f(x)) + (1 )(y, f(y)) = (x + (1 )y, f(x) + (1 )f(y)) ,
28 CHAPTER 3. CONVEXIDADE E DUALIDADE
onde x + (1 )y K mas f(x) + (1 )f(y) < f(x + (1 )y). Por-
tanto, (x, f(x)) + (1 )(y, f(y)) n ao pertence ao epigrafo de f. Logo o
epigrafo de f n ao e convexo. QED
Fun c oes convexas diferenci aveis podem ser caracterizadas pelo teorema a
seguir:
Teorema 3.1.7
Sejam K IR
n
aberto e convexo, f : K IR, f C
1
(K). Ent ao f e
convexa se, e somente se, f(y) f(x)+f(x)
T
(yx), para todo x, y K.
Prova: Seja f convexa como na hip otese do teorema, x, y K, [0, 1].
Logo, f(y + (1 )x) f(y) + (1 )f(x). Portanto,
f(x +(y x)) f(x) (f(y) f(x)) .
Ent ao
lim
0
f(x +(y x)) f(x)
f(y) f(x) .
Logo,
f(x)
T
(y x) f(y) f(x).
Dessa maneira, provamos que
f(x) +f(x)
T
(y x) f(y) para todo x, y K.
Reciprocamente, se f(y) f(x) + f(x)
T
(y x) para todo x, y K,
chamando z
= y + (1 )x, temos
f(x) f(z
) +f(z
)
T
(x z
)
f(y) f(z
) +f(z
)
T
(y z
) .
Portanto,
(1 )f(x) +f(y) (1 )(f(z
) +f(z
)
T
(x z
))
+ (f(z
) +f(z
)
T
(y z
))
= f(z
) +f(z
)
T
(x z
x +z
+y z
)
= f(z
) +f(z
)
T
(y + (1 )x z
)
= f((1 )x +y) .
QED
3.1. CONVEXIDADE 29
Outro resultado util, que estabelece o n ao decrescimento da derivada dire-
cional para fun c oes convexas, e apresentado a seguir.
Teorema 3.1.8
Seja K IR
n
aberto e convexo, f : K IR, f C
1
(K). Ent ao, f convexa
se, e somente se, para todo x, y K,
f(x)
T
(y x) f(y)
T
(y x) .
Exerccio 3.3: Demonstrar o Teorema 3.1.8.
As fun c oes convexas com duas derivadas contnuas s ao caracterizadas pelo
seguinte resultado.
Teorema 3.1.9
Seja K IR
n
aberto e convexo, f : K IR e f C
2
(K). Ent ao f e
convexa se, e somente se,
2
f(x) 0 para todo x K.
Exerccio 3.4: Demonstrar o Teorema 3.1.9.
Deni c ao 3.1.10.
Se K e um conjunto convexo, f : K IRe uma fun c ao estritamente convexa
se, para todo x, y K, (0, 1),
f(x + (1 )y) < f(x) + (1 )f(y) .
Exerccio 3.5: Provar os teoremas 3.1.73.1.9, com as modica c oes ade-
quadas, substituindo convexa por estritamente convexa.
Teorema 3.1.11
Seja f : K IR convexa e a IR. Ent ao o conjunto de nvel x K [ f(x) a
e convexo.
Exerccio 3.6: Demonstrar o Teorema 3.1.11.
Deni c ao 3.1.12.
Chamamos de problema de programa c ao convexa a
Minimizar f(x)
sujeita a x K
30 CHAPTER 3. CONVEXIDADE E DUALIDADE
onde K e um conjunto convexo e f e uma fun c ao convexa.
Teorema 3.1.17
Em um problema de programa c ao convexa, todo minimizador local e global.
O conjunto dos minimizadores e convexo. Se f e estritamente convexa, n ao
pode haver mais de um minimizador.
Prova: Suponhamos que x
). Para
[0, 1], consideremos x
= (1 )x
+ x. Pela convexidade de K,
x
) (1 )f(x
) +f(x) = f(x
) +(f(x) f(x
)) < f(x
).
Assim, para sucientemente pr oximo de 0, x
torna-se arbitrariamente
pr oximo de x
, mas f(x
) < f(x
). Portanto, x
. Se IR
n
e IR
p
s ao os multiplicadores dados pelo Teorema
2.4.1, temos:
f(x
) +
m
i=1
i
h
i
(x
) +
p
i=1
i
g
i
(x
) = 0 (3.1.1)
h(x
) = 0 (3.1.2)
i
g
i
(x
) = 0 , i = 1, . . . , p (3.1.3)
i
0 , i = 1, . . . , p (3.1.4)
g
i
(x
) 0 , i = 1, . . . , p (3.1.5)
Agora, f(x) f(x) +
m
i=1
i
h
i
(x) +
p
i=1
i
g
i
(x) pois h
i
(x) = 0, i = 1, . . . , m,
g
i
(x) 0, i = 1, . . . , p e vale (3.1.4).
Aplicando a desigualdade do Teorema 3.1.7 ` as fun c oes f, h
i
e g
i
segue-se
que
f(x) f(x
) +f(x
)
T
(x x
) +
m
i=1
i
(h
i
(x
) +h
i
(x
)
T
(x x
))
+
p
i=1
i
(g
i
(x
) +g
i
(x
)
T
(x x
)) .
Por (3.1.1) - (3.1.5) temos f(x) f(x
), ou seja, x
e minimizador global
de (2.4.1). QED
32 CHAPTER 3. CONVEXIDADE E DUALIDADE
3.2 Dualidade
Consideremos o problema geral de programa c ao n ao linear (problema pri-
mal):
Minimizar f(x)
sujeita a h(x) = 0
g(x) 0
(3.2.1)
onde f : IR
n
IR, h : IR
n
IR
m
, g : IR
n
IR
p
e f, h, g C
1
(IR
n
).
Deni c ao 3.2.1
Chamamos Problema Dual (de Wolfe) (ver [199]) de (3.2.1) ao problema
Maximizar (x, , )
sujeita a
x
(x, , ) = 0
0
(3.2.2)
onde (x, , ) = f(x) +
m
i=1
i
h
i
(x) +
p
i=1
i
g
i
(x).
Reescrevendo (3.2.2), temos:
Maximizar f(x) +
m
i=1
i
h
i
(x) +
p
i=1
i
g
i
(x)
sujeita a f(x) +
m
i=1
i
h
i
(x) +
p
i=1
i
g
i
(x) = 0
0
(3.2.3)
Antes de estabelecer propriedades do Dual de Wolfe, calculamos os proble-
mas duais de problemas cl assicos de otimiza c ao.
Exemplo 3.2.2: Programa c ao Linear.
Consideremos o problema primal de programa c ao linear no seguinte formato:
Minimizar c
T
x
sujeita a Ax b
(3.2.4)
onde A IR
pn
, A
T
= (a
1
, . . . , a
p
) , a
i
IR
n
, i = 1, . . . , p.
Neste caso, (x, , ) = (x, ) = c
T
x+
p
i=1
i
(a
T
i
xb
i
) = c
T
x+
T
(Axb).
Logo,
x
(x, ) = c +A
T
.
3.2. DUALIDADE 33
Portanto o problema dual de (3.2.4) e dado por:
Maximizar c
T
x +
T
(Ax b)
sujeita a A
T
+c = 0
0 .
(3.2.5)
Utilizando A
T
+ c = 0, podemos eliminar a dependencia na vari avel x na
fun c ao objetivo. Assim, (3.2.5) ca:
Maximizar b
T
sujeita a A
T
+c = 0
0 .
(3.2.6)
Substituindo por IR
p
, reescrevemos (3.2.6) da seguinte forma:
Maximizar b
T
sujeita a A
T
= c
0 .
(3.2.7)
Podemos observar que, enquanto o problema primal tinha n vari aveis e p
restri c oes de desigualdade, o dual tem p vari aveis, que devem ser negativas, e
n restri c oes de igualdade. Se o problema primal e levado ` a forma padr ao da
programa c ao linear, ele passa a ter n +p vari aveis (positivas) e p restri c oes
lineares de igualdade. Esta an alise ajuda a decidir em que situa c oes usar o
dual pode ser conveniente.
Exerccio 3.7: Encontrar o dual de
Maximizar c
T
x
sujeita a Ax = b
x 0 .
Exemplo 3.2.3: Programa c ao quadr atica
Consideremos agora o problema geral de programa c ao quadr atica como
sendo o problema primal:
Minimizar
1
2
x
T
Gx +c
T
x
sujeita a Ax = b
Cx d
(3.2.8)
onde A IR
mn
, C IR
pn
e G simetrica n ao singular.
34 CHAPTER 3. CONVEXIDADE E DUALIDADE
Ent ao
(x, , ) =
1
2
x
T
Gx +c
T
x +
T
(Ax b) +
T
(Cx d)
e
x
(x, , ) = Gx +c +A
T
+C
T
.
Assim, o problema dual de (3.2.8) e
Maximizar
1
2
x
T
Gx +c
T
x +
T
(Ax b) +
T
(Cx d)
sujeita a Gx +c +A
T
+C
T
= 0
0 .
(3.2.9)
Substituindo x = G
1
(c + A
T
+ C
T
), podemos reescrever (3.2.9) da
seguinte forma:
Maximizar
1
2
(c +A
T
+C
T
)
T
G
1
(c +A
T
+C
T
) b
T
d
T
sujeita a 0 .
(3.2.10)
Neste exemplo vemos que o problema dual pode ter uma estrutura diferente
do problema primal, neste caso mais simples. A simplicidade do problema
dual est a associada ` a possibilidade de calcular G
1
v. Essa tarefa pode ser
muito difcil se G n ao tem uma estrutura favor avel, mas muito f acil em casos
bastante comuns nas aplica c oes. Por exemplo, se o problema primal consiste
em encontrar a proje c ao de um ponto dado no conjunto factvel de (3.2.8),
a matriz G e a identidade.
Observamos que o dual (3.2.10) est a bem denido se Ge uma matriz n ao sin-
gular. Isso n ao signica que sempre seja equivalente ao primal. Para tanto,
precisaremos que G seja denida positiva, o que resultar a como corol ario dos
resultados seguintes. Em (3.2.2) e (3.2.3) denimos dualidade sem estabele-
cer conex oes entre o primal e o dual. Com tal generalidade, os problemas
primal e dual podem n ao ser equivalentes. Agora estudaremos rela c oes entre
os dois problemas usando hip oteses de convexidade.
Lembramos que chamamos condi c oes Karush-Kuhn-Tucker (KKT) ` as dadas
por (2.4.2)-(2.4.6), isto e:
f(x) +
m
i=1
i
h
i
(x) +
p
i=1
i
g
i
(x) = 0
h(x) = 0
i
g
i
(x) = 0 , i = 1, . . . , p
i
0 , i = 1, . . . , p
g
i
(x) 0 , i = 1, . . . , p
3.2. DUALIDADE 35
Um ponto KKT e um ponto onde as condi c oes KKT s ao satisfeitas.
Teorema 3.2.5
Suponhamos que o problema (3.2.1) e tal que as fun c oes f e g
i
, i = 1, . . . , p
s ao convexas em IR
n
e que x
. Ent ao (x
) = (x
).
Prova: Sabemos que
f(x
) +
m
i=1
[
]
i
h
i
(x
) +
p
i=1
[
]
i
g
i
(x
) = 0 ,
com
) = (x
).
Logo, (x
) = f(x
) +
m
i=1
[
]
i
h
i
(x
) +
p
i=1
[
]
i
g
i
(x
)
= f(x
)
f(x
) +
m
i=1
i
h
i
(x
) +
p
i=1
i
g
i
(x
)
= (x
, , ).
Como (3.2.1) e um problema de programa c ao convexa, e f acil ver que ,
como fun c ao de x, e convexa para 0. Logo, pelo Teorema 3.1.11 e pela
factibilidade dual de (x, , ) segue que
(x
, , ) (x, , ) +
x
(x, , )
T
(x
x) = (x, , ) .
Isto completa a prova. QED
Alguns coment arios sobre o Teorema 3.2.5 s ao pertinentes. Este resultado
nos assegura que, se um problema de programa c ao convexa tem um ponto
que satisfaz as condi c oes KKT (que portanto, pelo Teorema 3.1.18, ser a um
minimizador global), esse ponto necessariamente vai ser um maximizador
global do Dual de Wolfe. Isso n ao signica que dado um problema de pro-
grama c ao convexa, uma solu c ao global do dual corresponda for cosamente a
36 CHAPTER 3. CONVEXIDADE E DUALIDADE
uma solu c ao do primal. No entanto, algumas rela c oes adicionais entre pri-
mal e dual podem ser estabelecidas.
Teorema 3.2.6
Suponhamos que (3.2.1) e um problema de programa c ao convexa. Se z e
um ponto factvel de (3.2.1) e (x, , ) e um ponto factvel do problema dual
correspondente (3.2.2), ent ao
f(z) (x, , ) .
Prova: Pelo Teorema 3.1.11 aplicado a f e g
i
, factibilidade de z em rela c ao
a (3.2.1) e de (x, , ) em rela c ao a (3.2.2), temos que
f(z) f(x) f(x)
T
(z x)
=
_
m
i=1
i
h
i
(x) +
p
i=1
i
g
i
(x)
_
T
(z x)
m
i=1
i
[h
i
(z) h
i
(x)] +
p
i=1
i
[g
i
(z) g
i
(x)]
i=1
i
h
i
(x) +
p
i=1
i
g
i
(x) .
Portanto f(z) f(x)+
m
i=1
i
h
i
(x)]+
p
i=1
i
g
i
(x) = (x, , ), como queriamos
provar. QED
O Teorema 3.2.6 implica que, se a regi ao factvel do primal (3.2.1) e n ao vazia
mas o problema primal e ilimitado inferiormente, necessariamente a regi ao
factvel do dual e vazia. Reciprocamente, se o dual e um problema factvel
mas ilimitado superiormente, ent ao a regi ao factvel do primal e vazia. Deste
resultado tambem se deduz que qualquer ponto factvel do dual fornece uma
cota inferior para o valor da fun c ao objetivo numa possvel solu c ao do pri-
mal. Esse tipo de informa c ao pode ser muito util na pr atica.
Exerccio 3.8: Supondo que o primal tem apenas restri c oes lineares, que
sua regi ao factvel e vazia e que a regi ao factvel do dual e n ao vazia, provar
que o supremo da fun c ao objetivo do dual e +. (Ver [199].)
3.2. DUALIDADE 37
Exerccio 3.9: Considere o problema denido por n = 1, m = 0, p = 1,
f(x) = 0 e g(x) = e
x
. Mostrar que o primal e infactvel mas o dual tem
solu c ao nita.
Exerccio 3.10: Estabelecer as rela c oes entre o dual de Wolfe e o seguinte
problema
Maximizar F(, ) sujeita a 0,
onde F(, ) e o mnimo de (x, , ), em rela c ao a x IR
n
.
36 CHAPTER 3. CONVEXIDADE E DUALIDADE
Chapter 4
Minimiza cao de quadraticas
Uma quadr atica e um polin omio em n vari aveis com termos ate segunda
ordem. A minimiza c ao dessas fun c oes tem interesse pelo grande n umero de
aplica c oes que recaem nesse formato. Por exemplo, quando para um con-
junto de dados empricos se postula uma rela c ao linear com certos par ametros
desconhecidos, o problema de ajustar esses par ametros costuma ser resolvido
atraves da minimiza c ao da soma dos quadrados dos erros, nesse caso, uma
fun c ao quadr atica. A soma de quadrados n ao e melhor que outras medidas
globais do erro, em termos de qualidade do ajuste. No entanto, e a me-
dida cuja minimiza c ao e mais simples do ponto de vista numerico. De fato,
a minimiza c ao de quadr aticas e um dos problemas mais f aceis na arte da
otimiza c ao, fazendo tambem com que seja utilizado freq uentemente como
subproblema auxiliar em algoritmos para resolver problemas mais complica-
dos.
4.1 Quadraticas sem restri c oes
Dada a matriz simetrica G IR
nn
, o vetor b IR
n
e a constante c IR, o
problema tratado nesta se c ao e:
Minimizar q(x)
1
2
x
T
Gx +b
T
x +c . (4.1.1)
E f acil ver que o gradiente de q e uma fun c ao vetorial linear e que a Hessiana
e uma matriz constante:
37
38 CHAPTER 4. MINIMIZAC
AO DE QUADR
ATICAS
Lema 4.1.1
Se q(x) =
1
2
x
T
Gx+b
T
x+c , ent ao q(x) = Gx+b e
2
q(x) = G para todo
x IR
n
.
Exerccio 4.1: Identicar G, b e c nos diferentes casos:
(a) q(x) = 3x
2
1
2x
1
x
2
+x
1
x
3
x
2
3
+x
3
x
1
+ 5
(b) q(x) = x
2
1
x
2
2
+ 4x
1
x
3
+ 2x
2
x
3
+x
1
+x
2
8
(c) q(x) = 2x
1
x
2
+x
1
+x
2
.
Exerccio 4.2: Demonstrar o Lema 4.1.1.
Os pontos estacion arios de (4.1.1) s ao aqueles onde se anula o gradiente,
portanto, de acordo com o Lema 4.1.1, s ao as solu c oes do sistema linear
Gx +b = 0. (4.1.2)
Sua existencia ou unicidade est a determinada pelas propriedades desse sis-
tema.
Lema 4.1.2
(a) O problema (4.1.1) admite algum ponto estacion ario se, e somente se,
b (G), onde (G) e o espa co coluna de G.
(b) O problema (4.1.1) admite um unico ponto estacion ario se, e somente
se, G e n ao singular.
Exerccio 4.3: Demonstrar o Lema 4.1.2.
A equa c ao dos pontos estacion arios Gx + b = 0 pode ter uma, innitas ou
nenhuma solu c ao. Se (4.1.2) n ao tem solu c ao, ou seja, b n ao pertence ao
espa co coluna de G, ent ao (4.1.1) n ao admite nenhum minimizador, local
ou global. Esse e o caso, por exemplo, quando q e uma fun c ao linear n ao
constante (G = 0 e b ,= 0). Se (4.1.2) tem solu c ao unica, essa solu c ao ser a
o unico ponto estacion ario de (4.1.1). No entanto, ele pode ser tanto um
minimizador, como maximizador ou ponto sela. Finalmente, se G tem
innitas solu c oes, o que acontece quando G e singular e b est a no seu espa co
coluna, todas elas ser ao pontos estacion arios e, como veremos, do mesmo
tipo.
E interessante observar que um problema com innitas solu c oes (G
singular e b (G)) pode ser transformado em um problema sem solu c ao
por uma perturba c ao arbitrariamente pequena no vetor b. Por exemplo, o
sistema linear 0x+0 = 0 tem IR
n
como conjunto de solu c oes, mas o sistema
0x + = 0 e incompatvel para qualquer ,= 0. Isso mostra que, muitas
4.1. QUADR
e um minimizador local,
necessariamente teremos G =
2
q(x
e um ponto
estacion ario, necessariamente ser a um minimizador global. Como o mesmo
tipo de raciocnio pode ser feito para maximizadores, deduzimos que toda
quadr atica tem um unico tipo de ponto estacion ario: minimizadores globais
ou maximizadores globais ou ainda pontos sela, que n ao s ao maximizadores
nem minimizadores locais. A prova do seguinte lema mostra que, devido ` a
simplicidade das fun c oes quadr aticas, e f acil obter as conclus oes acima sem
apelar para os resultados de convexidade.
Lema 4.1.3
Se G 0 e x
e minimizador
global de (4.1.1).
Prova: Seja x
. Logo,
q(x) =
1
2
x
T
Gx +b
T
x +c =
1
2
x
T
Gx x
T
Gx +c
=
1
2
(x x
)
T
G(x x
)
1
2
x
T
Gx
+c
1
2
x
T
Gx
+c
=
1
2
x
T
Gx
x
T
Gx
+c =
1
2
x
T
Gx
+b
T
x
+c = q(x
) .
Portanto, q(x) q(x
e minimizador global de
(4.1.1). QED
Lema 4.1.4
40 CHAPTER 4. MINIMIZAC
AO DE QUADR
ATICAS
Se (4.1.1) admite um minimizador local, ent ao G 0.
Corol ario 4.1.5
Todo minimizador local de (4.1.1) e global.
Corol ario 4.1.6
Se a matriz G e indenida, ent ao a quadr atica q n ao tem extremos locais.
Exerccio 4.4: Demonstrar o Lema 4.1.4 e os Corol arios 4.1.5 e 4.1.6 sem
usar as condi c oes de otimalidade do Captulo 2 nem os resultados de con-
vexidade do Captulo 3.
Um caso especial muito importante da minimiza c ao de quadr aticas sem re-
stri c oes e o problema de quadrados mnimos linear. Consiste em, dada uma
matriz A IR
mn
e um vetor b IR
m
, encontrar x IR
n
de maneira que
Ax se aproxime de b no sentido dos quadrados mnimos. Isto signica que
x deve ser solu c ao de
Minimizar
1
2
|Ax b|
2
2
. (4.1.3)
Em (4.1.3), a fra c ao
1
2
n ao cumpre nenhum papel, exceto simplicar a ex-
press ao do gradiente e da Hessiana. O problema e equivalente a minimizar
q
2
(x) |Axb|
2
, no entanto, a formula c ao com a norma ao quadrado e pre-
fervel, devido a q
2
n ao ser diferenci avel nos pontos x em que [Ax b]
i
= 0.
No entanto, (4.1.3) n ao e equivalente a minimizar outras normas de Ax b.
Em muitos ajustes de modelos e necess ario estimar par ametros x de maneira
que as observa c oes se aproximem bastante do modelo te orico (Ax b). A
escolha da norma euclidiana para medir o grau de aproxima c ao se deve,
na maioria dos casos, a que essa norma (ao quadrado) fornece o problema
de otimiza c ao mais simples associado ao ajuste desejado. Algumas pro-
priedades b asicas do problema de quadrados mnimos linear s ao enunciadas
no seguinte teorema.
Teorema 4.1.7
Se q(x) =
1
2
|Ax b|
2
2
, onde A IR
mn
, m n e b IR
m
, ent ao
(a) q(x) = A
T
(Ax b);
(b)
2
q(x) = A
T
A 0;
(c) As equa c oes normais A
T
Ax = A
T
b (q(x) = 0) sempre tem solu c ao.
Se posto (A) = n, a solu c ao e unica e, se posto (A) < n, h a innitas
solu c oes.
4.1. QUADR
ATICAS
de norma mnima dessa variedade am resulta de escolher z
i
= 0 toda vez
que
i
= 0 em (4.1.6).
Quando n ao existem minimizadores do problema (4.1.1), dado um x ar-
bitr ario pertencente a IR
n
, e util determinar uma dire c ao d IR
n
tal que
lim
t
q(x +td) = . (4.1.7)
Se soubermos achar uma dire c ao que satisfa ca (4.1.7) poderemos dizer que
sempre somos capazes de resolver (4.1.1), ate quando o mnimo e (e
o minimizador e x + d). Analisemos, pois, esse problema. Se algum
autovalor de G, digamos
i
, e menor que 0, tomamos d como o autovetor
correspondente (a coluna i da matriz Q). Ent ao,
q(x +td) =
1
2
(x +td)
T
G(x +td) +b
T
(x +td) +c
= q(x) +tq(x)
T
d +
1
2
t
2
d
T
Gd
= q(x) +tq(x)
T
d +
1
2
i
t
2
.
Portanto, q(x+td) como fun c ao de t e uma par abola c oncava (coeciente de
segunda ordem negativo) e tende a tanto para t quanto para
t . Esta escolha de d n ao e a unica que satisfaz (4.1.7). Com
efeito, qualquer dire c ao que cumprisse d
T
Gd < 0 teria a mesma propriedade.
Dire c oes que satisfazem a desigualdade d
T
Gd < 0 se dizem de curvatura neg-
ativa.
Consideremos agora o caso em que 0 mas existe
i
= 0 com [Q
T
b]
i
,= 0.
Tomemos, de novo, d a coluna i de Q. Portanto, b
T
d ,= 0 e d
T
Gd = 0.
Se b
T
d > 0, trocamos d por d, de maneira que sempre podemos supor
b
T
d < 0. Fazendo o mesmo desenvolvimento que no caso anterior, chegamos
a
q(x +td) = q(x) +tq(x)
T
d +
1
2
t
2
d
T
Gd
= q(x) +t(Gx +b)
T
d.
Mas d e um elemento do n ucleo de G, portanto x
T
Gd = 0 e
q(x +td) = q(x) +tb
T
d.
Logo, q(x + td) e uma reta com coeciente angular negativo e tende a
quando t .
4.1. QUADR
j1
k=1
d
kk
l
2
jk
Se j = n, termine. Se j < n, para i = j + 1 a n fa ca:
l
ij
=
1
d
jj
_
_
g
ij
j1
k=1
d
kk
l
jk
l
ik
_
_
.
O algoritmo de Cholesky termina, produzindo D > 0 (e e numericamente
est avel) se, e somente se, G e denida positiva. De fato, a maneira mais
econ omica de averiguar se uma matriz simetrica e denida positiva e tentar
fazer sua fatora c ao de Cholesky. Se G e singular ou indenida, em algum
momento aparece um d
jj
menor ou igual a 0 no c alculo dessas entradas.
Nos casos em que a fatora c ao de Cholesky de G e completada com sucesso,
o unico minimizador de (4.1.1) e obtido resolvendo LDL
T
x = b, processo
que pode ser decomposto em tres passos:
(a) resolver Ly = b;
(b) resolver Dz = y;
(c) resolver L
T
x = z.
Os tres passos s ao computacionalmente simples: (a) e (c) consistem em
resolver sistemas lineares triangulares, e (b) em dividir cada coordenada de
y pela entrada diagonal d
ii
. Acrescentando a este custo computacional o de
fatorar a matriz pelo Algoritmo 4.1.8, a minimiza c ao da quadr atica consome
aproximadamente n
3
/6 somas e produtos.
Quando, no Algoritmo 4.1.8, detectamos que G n ao e denida positiva,
podemos apelar para o processo muito mais custoso de calcular a decom-
44 CHAPTER 4. MINIMIZAC
AO DE QUADR
ATICAS
posi c ao espectral. Outras alternativas, baseadas em fatora c oes mais baratas
que a espectral, foram sugeridas na literatura. Ver, por exemplo, a fatora c ao
Bunch-Parlett em [26]. Para efeitos pr aticos, quando se quer resolver (4.1.7)
e, quase sempre, suciente usar o seguinte problema auxiliar:
Minimizar q(x +d) sujeita a |d|
2
, (4.1.8)
onde e um n umero grande. Este problema pode ser resolvido por meio
de um n umero n ao excessivo de fatora c oes de Cholesky, como veremos na
Se c ao 4.2.
4.1.2 O caso esparso
A an alise te orica feita na sub-se c ao anterior e v alida independentemente da
estrutura da matriz G mas, no Algoritmo 4.1.8, usamos, implicitamente, a
suposi c ao de que todos as entradas de G e L s ao armazenadas. Portanto,
esse algoritmo usa mais de n
2
posi c oes de mem oria. Quando Ge esparsa, isto
e, a grande maioria de suas entradas s ao nulas, e comum que a matriz L de
sua fatora c ao de Cholesky tambem o seja.
`
As vezes, uma permuta c ao con-
veniente de linhas e colunas de G (que corresponde a re-ordenar as vari aveis
x
i
) faz aumentar consideravelmente o grau de esparsidade (ou diminuir a
densidade) do fator L. Ver, por exemplo, [62]. A fatora c ao de Cholesky
de matrizes esparsas procede da mesma maneira que o Algoritmo 4.1.8, mas
toma o cuidado de armazenar apenas os elementos n ao nulos de G e L, e
evita fazer opera c oes com zeros. Dessa maneira, n ao apenas a mem oria,
mas tambem o tempo computacional pode diminuir muito e a economia e
bastante signicativa quando n e grande. Agora, se a fatora c ao de Cholesky
falha, e nos interessa obter uma dire c ao que satisfa ca (4.1.7), apelar para
a fatora c ao espectral e quase sempre impossvel, porque a matriz Q desta
fatora c ao e geralmente densa, independentemente da esparsidade de G. No
entanto, ainda podemos obter uma dire c ao satisfat oria, em termos pr aticos,
usando o subprobema (4.1.8).
Exerccio 4.6: Obter um exemplo onde G e esparsa mas sua fatora c ao de
Cholesky e densa e um exemplo onde G e esparsa, sua fatora c ao de Cholesky
e esparsa mas sua fatora c ao espectral e densa.
4.1. QUADR
ATICAS
para resolver (4.1.1). Para motiv a-lo, falaremos antes do metodo de m axima
descida. Nesta se c ao, usaremos a nota c ao g(x) = q(x) = Gx + b e | |
ser a sempre a norma euclidiana. A dire c ao
d = g(x)/|g(x)| e a de m axima
descida a partir do ponto x. De fato, dada uma dire c ao unit aria d ( |d| = 1)
qualquer, a derivada direcional D
d
q(x) e tal que
D
d
q(x) = g(x)
T
d |g(x)| = D
d
q(x) .
Assim, dentre todas as dire c oes unit arias, a determinada por g(x) e a que
fornece a menor derivada direcional. Portanto, a fun c ao objetivo diminuir a
se avan carmos nessa dire c ao, e a m axima diminui c ao ser a obtida mini-
mizando, ao longo dela, a quadr atica q. Isto sugere o seguinte metodo
iterativo:
Algoritmo 4.1.9 - M axima descida
Seja x
0
IR
n
, x
0
arbitr ario.
Dado x
k
IR
n
, dena d
k
= g(x
k
) e, se possvel, calcule x
k+1
minimizador
de q(x
k
+d
k
), para 0.
Exerccio 4.7: Demonstrar que, se d
T
k
Gd
k
> 0, existe uma f ormula fechada
para o passo otimo no Algoritmo 4.1.9:
k
=
d
T
k
d
k
d
T
k
Gd
k
. Provar que as dire c oes
de duas itera c oes consecutivas s ao ortogonais.
Infelizmente, alem do metodo de m axima descida n ao produzir a solu c ao
do problema em um n umero nito de itera c oes, como as dire c oes consecuti-
vas por ele geradas s ao ortogonais, o metodo anda em ziguezague o que,
certamente, nunca e a melhor forma de se acercar de um objetivo. Este com-
portamento se torna mais desfavor avel ` a medida que as superfcies de nvel
de q se tornam mais alongadas, o que corresponde a um n umero de condi c ao
grande da matriz G. De fato, a velocidade de convergencia deste metodo
depende fortemente da raz ao entre o maior e o menor autovalor de G. Ver
[129]. Nos ultimos anos foram introduzidas varia c oes do metodo de m axima
descida onde se conserva o uso das dire c oes dos gradientes mas e mudado
o c alculo do passo, com substanciais ganhos de eciencia. Ver [8], [170], [80].
Vamos introduzir o metodo dos gradientes conjugados como uma especie
de metodo de m axima descida com mem oria. Assim como o metodo de
m axima descida minimiza q na dire c ao g(x
0
), depois na dire c ao de g(x
1
)
etc., o metodo de gradientes conjugados come car a minimizando q na dire c ao
4.1. QUADR
,
apresentamos no Algoritmo 4.1.10 uma primeira descri c ao geometrica do
metodo dos gradientes conjugados. Nenhuma hip otese adicional sobre a
matriz G e assumida alem da simetria.
Algoritmo 4.1.10
Come camos o algoritmo com x
0
IR
n
arbitr ario. Dado x
k
IR
n
, denimos
o
k
= Spang(x
0
), . . . , g(x
k
)
e
1
k
= x
0
+o
k
= v IR
n
[ v = x
0
+w com w o
k
.
Consideramos o problema
Minimizar q(x) sujeita a x 1
k
. (4.1.9)
Se (4.1.9) n ao tem solu c ao, o algoritmo p ara por inexistencia de mnimo.
Caso contr ario, denimos x
k+1
como uma das solu c oes de (4.1.9). (Mais
tarde, provaremos, que, de fato, (4.1.9) n ao pode ter mais de uma solu c ao.)
`
A primeira vista, o Algoritmo 4.1.10 pode parecer pouco pr atico, pois ex-
ige a minimiza c ao da quadr atica q(x) em variedades de dimens ao cada vez
maior. Logo, no ultimo caso, estaremos minimizando q em todo IR
n
(anal
de contas, nosso problema original). No entanto, veremos que os c alculos
necess arios para computar os sucessivos iterandos s ao surpreendentemente
simples e sem requerimentos de mem oria. Mais surpreendente e o fato de
que, recentemente, foram desenvolvidos metodos iterativos para resolver sis-
temas lineares n ao simetricos baseados na ideia desse algoritmo, onde os
c alculos das itera c oes n ao se simplicam, mas que, mesmo assim, parecem
ser extremamente ecientes. Ver [179].
Vamos analisar algumas propriedades do Algoritmo 4.1.10. Para simplicar
a nota c ao, escreveremos, de agora em diante, g
k
= g(x
k
) e s
k
= x
k+1
x
k
,
para todo k = 0, 1, 2, . . .. Da condi c ao de otimalidade para minimiza c ao
com restri c oes de igualdade, ou da condi c ao de primeira ordem por curvas,
dadas no Captulo 2, se deduz que, se x
k+1
est a denido, g
k+1
e ortogonal a
o
k
. Se, nesse caso, g
k+1
,= 0, deduzimos que g
k+1
n ao pode ser combina c ao
linear de g
0
, g
1
, . . . , g
k
, portanto, com breve raciocnio indutivo, conclumos
que o conjunto g
0
, g
1
, . . . , g
k+1
e linearmente independente.
48 CHAPTER 4. MINIMIZAC
AO DE QUADR
ATICAS
Por constru c ao, s
k
pertence a o
k
, o subespa co gerado por g
0
, g
1
, . . . , g
k
,
para todo k. Portanto,
Spans
0
, s
1
, . . . , s
k
o
k
.
Vamos provar, por indu c ao, que a inclus ao contr aria tambem e verdadeira.
Suponhamos, por hip otese indutiva, que
o
k
Spans
0
, s
1
, . . . , s
k
.
Provaremos que
o
k+1
Spans
0
, s
1
, . . . , s
k+1
. (4.1.10)
Se g
k+1
= 0 isto e trivial. Se g
k+1
,= 0, ent ao, como a derivada dire-
cional de q na dire c ao de g
k+1
e negativa, se deduz que, tomando z =
x
k+1
tg
k+1
1
k+1
com t positivo e sucientemente pequeno, podemos
obter q(z) < q(x
k+1
). Como x
k+2
e minimizador em 1
k+1
, temos que
q(x
k+2
) < q(x
k+1
). Isto implica que x
k+2
/ 1
k
, j a que x
k+1
era mini-
mizador em 1
k
. Portanto s
k+1
n ao pertence a o
k+1
. Isso implica que s
k+1
e
linearmente independente de g
0
, g
1
. . . g
k
. Portanto, o coeciente correspon-
dente a g
k+1
de s
k+1
como combina c ao de g
0
, . . . , g
k+1
n ao pode ser nulo.
Portanto, g
k+1
e combina c ao de g
0
, . . . , g
k
, s
k+1
. Logo, da hip otese indutiva
se obtem (4.1.10).
O resultado a seguir estabelece a termina c ao nita do Algoritmo 4.1.10. Mais
precisamente, provaremos que existem duas possibilidades: que, em algum
momento, o algoritmo pare por inexistencia de minimizador de q(x) em
1
k
ou que, em um n umero nito de passos (menor ou igual a n), encontre
uma solu c ao do sistema linear Gx + b = 0. Quando G e denida positiva
ou quando G e semidenida positiva mas b (G), os minimizadores dos
problemas (4.1.9) sempre existem. Portanto, nesses casos, o algoritmo ter-
mina com uma solu c ao de Gx +b = 0, que, necessariamente, e minimizador
global de (4.1.1). Se b / (G), n ao existem solu c oes de (4.1.2). Logo, nesse
caso, o teorema arma que o algoritmo p ara por inexistencia de mnimo de
(4.1.9) em alguma itera c ao k. Agora, se b (G) mas G tem algum au-
tovalor negativo, as duas possibilidades permanecem: que seja encontrada
uma itera c ao que resolva (4.1.2) (ponto crtico de (4.1.1)) ou que o algoritmo
pare por inexistencia de minimizadores de (4.1.9).
Teorema 4.1.12
Se o Algoritmo 4.1.10 n ao p ara por inexistencia de mnimo, ent ao existe
4.1. QUADR
ATICAS
de t e uma par abola, para que exista um minimizador h a duas possibili-
dades, ou e constante ou o coeciente de segunda ordem e maior que 0. Mas
d
dt
q(x
j
+ ts
j
) = g
T
j
s
j
< 0 em t = 0, portanto a par abola n ao e constante.
Como o coeciente de segunda ordem e s
T
j
Gs
j
/2, segue-se (4.1.12). QED
Se x
k+1
est a bem denido, os resultados anteriores garantem que existem
0
,
1
. . .
k1
, tais que ,= 0,
s
k
=
0
s
0
+. . . +
k1
s
k1
g
k
,
e os incrementos s
j
s ao conjugados. Denindo d
k
= s
k
/, deduzimos que
existem escalares
0
, . . . ,
k1
tais que
d
k
= g
k
+
0
s
0
+. . . +
k1
s
k1
.
Pre-multiplicando ambos membros por s
T
j
G, j = 0, 1, . . . , k 1, e usando a
conjuga c ao dos s
j
, obtemos
0 = s
T
j
Gd
k
= s
T
j
Gg
k
+
j
s
T
j
Gs
j
,
ou seja, usando que s
T
j
Gs
j
> 0,
j
=
g
T
k
Gs
j
s
T
j
Gs
j
, para j = 0, 1, . . . , k 1.
Assim, como Gs
j
= g
j+1
g
j
, temos que g
T
k
Gs
j
= 0 para j = 0, 1, . . . , k 2.
Logo,
j
= 0 para j = 0, 1, . . . , k 2 e, conseq uentemente,
d
k
= g
k
+
k1
s
k1
= g
k
+
g
T
k
Gs
k1
s
T
k1
Gs
k1
s
k1
. (4.1.15)
Por m, como x
k+1
deve ser o minimizador de q ao longo da reta que passa
por x
k
, com dire c ao d
k
, obtemos
x
k+1
x
k
= s
k
=
d
T
k
g
k
d
T
k
Gd
k
d
k
. (4.1.16)
Antes de organizar um pouco melhor as f ormulas (4.1.15) e (4.1.16), vamos
reetir sobre o signicado das mesmas em rela c ao ao Algoritmo 4.1.10. O
fato mais relevante mostrado por essas express oes e que o c alculo de x
k+1
,
quando esse ponto est a bem denido, depende apenas do incremento anterior
s
k1
, e do gradiente atual g
k
. Ou seja, a minimiza c ao de q na variedade 1
k
4.1. QUADR
g
T
k
g
k
s
T
k1
g
k1
s
k1
= g
k
g
T
k
g
k
d
T
k1
g
k1
d
k1
. (4.1.17)
Alem disso, como d
k1
e a soma de g
k1
mais uma combina c ao dos gra-
dientes anteriores, e esses gradientes s ao ortogonais a g
k1
, (4.1.17) toma a
forma
d
k
= g
k
+
k1
d
k1
, onde
k1
=
g
T
k
g
k
g
T
k1
g
k1
. (4.1.18)
Finalmente, usando, tambem, que s
k
e combina c ao de g
k
e dos gradientes
anteriores, a f ormula (4.1.16) deriva em
x
k+1
= x
k
+
k
d
k
onde
k
=
g
T
k
g
k
d
T
k
Gd
k
. (4.1.19)
As express oes (4.1.18) e (4.1.19) descrevem o algoritmo de gradientes con-
jugados de maneira mais operativa. Para xar ideias, enunciamos de novo
o Algoritmo 4.1.10 de maneira computacionalmente adequada.
Algoritmo 4.1.14 - Gradientes conjugados
Come camos com x
0
arbitr ario e d
0
= g(x
0
). Dados x
k
, g
k
e d
k
IR
n
, a
seq uencia de pontos x
k
(a mesma denida no Algoritmo 4.1.10) e obtida da
seguinte maneira:
Se g
k
= 0, pare declarando convergencia. Se d
T
k
Gd
k
0 pare
declarando inexistencia de mnimo de (4.1.9). Se g
k
,= 0 e d
T
k
Gd
k
> 0
calcule
x
k+1
= x
k
+
k
d
k
, (4.1.20)
onde
k
=
g
T
k
g
k
d
T
k
Gd
k
; (4.1.21)
g
k+1
= g
k
+
k
Gd
k
; (4.1.22)
d
k+1
= g
k+1
+
k
d
k
, (4.1.23)
52 CHAPTER 4. MINIMIZAC
AO DE QUADR
ATICAS
onde
k
=
g
T
k+1
g
k+1
g
T
k
g
k
. (4.1.24)
E interessante observar que nos casos em que o algoritmo p ara por inex-
istencia de mnimo, o vetor d
k
fornece uma dire c ao ao longo da qual q tende
a . Com efeito, se d
T
k
Gd
k
< 0, a par abola q(x
k
+ td
k
) tem coeciente
de segunda ordem menor que 0 e, em conseq uencia, tende a nos dois
sentidos possveis. Se d
T
k
Gd
k
= 0 a express ao (4.1.23) mostra que a derivada
direcional ao longo de d
k
e negativa e a par abola q(x
k
+td
k
) e, na realidade,
uma reta decrescente. Portanto, a fun c ao tende a quando t .
Com base nos resultados anteriores sabemos que, no m aximo em n passos,
o metodo dos gradientes conjugados encontra uma solu c ao do sistema linear
(4.1.2) ou uma dire c ao ao longo da qual a quadr atica tende a . Veremos
agora que, muitas vezes, o n umero necess ario de passos e bem menor.
Teorema 4.1.15
O subespa co de Krylov da matriz G, denido por
/(G, g
0
, k) = Spang
0
, Gg
0
, . . . , G
k1
g
0
,
coincide com o
k
.
Prova: A prova e feita por indu c ao. Para k = 1, o resultado claramente
vale. Suponhamos que o
k
= Spang
0
, Gg
0
, . . . , G
k1
g
0
e vamos mostrar
que o
k+1
= Spang
0
, Gg
0
, . . . , G
k
g
0
. Por (4.1.22), g
k
= g
k1
+
k1
Gd
k1
.
Pela hip otese de indu c ao e pelo fato de que o
k
= Spang
0
, . . . , g
k1
=
Spand
0
, . . . , d
k1
, tanto g
k1
quanto Gd
k1
pertencem a Spang
0
, . . . , G
k
g
0
.
Alem disso, g
k
, o
k
pois sen ao g
k
= 0, j a que g
T
k
d
j
= 0 , j = 0, . . . , k 1.
Portanto, o
k+1
= Spang
0
, Gg
0
, . . . , G
k
g
0
, o que completa a prova. QED
Lema 4.1.16
A dimens ao de o
k
e, no m aximo, o n umero de autovalores distintos da ma-
triz G.
Prova: Seja QQ
T
a decomposi c ao espectral da matriz G e chamemos
v = Q
T
g
0
. Ent ao, pelo Teorema 4.1.15,
o
k
= Spang
0
, Gg
0
, . . . , G
k1
g
0
= SpanQQ
T
g
0
, QQ
T
g
0
, . . . , Q
k1
Q
T
g
0
= SpanQv, Qv, . . . , Q
k1
v .
4.1. QUADR
1
2
= Q
1
2
Q
T
e a matriz
H
1
2
GH
1
2
estaria muito pr oxima da matriz identidade. Desta forma,
H seria um precondicionador adequado, j a que o problema original (4.1.1)
caria equivalente ao seguinte problema precondicionado:
Minimizar
1
2
w
T
H
1
2
GH
1
2
w +d
T
w +c
onde w = H
1
2
x, d = H
1
2
b e o sistema H
1
2
GH
1
2
w +d = 0 teria resolu c ao
f acil pois H
1
2
GH
1
2
I.
A arte do precondicionamento consiste em encontrar H parecida com G de
maneira que tanto H quanto H
1
sejam f aceis de calcular. Um precondi-
cionador cl assico e tomar H como a diagonal de G. Tambem e usual adotar
H como uma fatora c ao de Cholesky incompleta de G.
54 CHAPTER 4. MINIMIZAC
AO DE QUADR
ATICAS
Exerccio 4.8: Reescrever as f ormulas do Algoritmo 4.1.14 incorporando
precondicionamento e trabalhando com as vari aveis originais. Ver [96].
4.2 Quadraticas em bolas
Nesta se c ao consideramos o seguinte problema:
Minimizar q(x) =
1
2
x
T
Gx +b
T
x +c
|x|
(4.2.1)
onde G = G
T
IR
nn
, b IR
n
, c IR, > 0 e | | = | |
2
, conven c ao
adotada daqui em diante.
Contrariamente a (4.1.1), este problema sempre tem solu c ao, j a que as
quadr aticas s ao fun c oes contnuas e a regi ao factvel de (4.1.11) e uma bola
fechada, portanto, um compacto de IR
n
. Vimos na Se c ao 4.1 que, quando
(4.1.1) n ao tem solu c ao, existem pontos de IR
n
ao longo dos quais a fun c ao
tende a . Portanto, nesse caso, se chamamos x() a uma solu c ao de
(4.2.1), teremos
lim
q( x()) = .
Alem disso, e obvio que q( x()) e n ao crescente como fun c ao de . Logo,
uma solu c ao de (4.2.1) para grande fornece uma boa aproxima c ao para
uma dire c ao d que verica (4.1.7).
O estudo do problema (4.2.1) se originou em certos subproblemas que apare-
cem na minimiza c ao irrestrita de fun c oes gerais, como veremos no captulo
7. Entretanto, recentemente, alguns autores utilizaram (4.2.1) como uma
maneira de regularizar o problema de minimizar uma quadr atica irrestrita.
A ideia e que, quando G e muito mal condicionada, a solu c ao exata de
(4.1.1) carece de sentido, por ser extremamente sensvel aos erros dos dados,
ou ao arredondamento. Por outro lado, o problema (4.2.1) e bem condi-
cionado se n ao e grande. Portanto, substituir (4.1.1) por (4.2.1) repre-
senta um certo sacrifcio em termos do erro no resduo do sistema (4.1.2),
mas freq uentemente compensado por uma maior estabilidade. Ver [191],
[195], [116], [142].
A estrutura muito especial do problema (4.2.1) proporciona caracteriza c oes
dos minimizadores muito mais poderosas que no caso geral de minimiza c ao
restrita. No caso geral, um minimizador deve ser um zero do gradiente do
Lagrangiano e a Hessiana desta fun c ao deve ser semidenida positiva num
4.2. QUADR
ATICAS EM BOLAS 55
certo subespa co tangente (cf. captulo 2). No seguinte teorema mostramos
que, num minimizador global de (4.2.1), a Hessiana do Lagrangiano deve ser
semidenida positiva globalmente, e n ao apenas restrita a um subespa co.
Ver [88], [187].
Teorema 4.2.1
Se z e solu c ao de (4.2.1), ent ao z e solu c ao da equa c ao
(G+I)z = b (4.2.2)
com 0, (z
T
z
2
) = 0 e (G+I) 0.
Prova: O problema (4.2.1) e equivalente a
Minimizar q(x)
x
T
x
2
.
(4.2.3)
Como z e solu c ao de (4.2.1), z satisfaz as condi c oes KKT para (4.2.3), isto
e, existe 0 tal que Gz +b +z = 0 e (z
T
z
2
) = 0. Portanto, z e
vericam (4.2.2).
Para vermos que G + I 0, suponhamos inicialmente que z ,= 0. Como
z e solu c ao de (4.2.1), z tambem e minimizador global de q(x) sujeita a
|x| = |z|. Ent ao
q(x) q(z) para todo x tal que |x| = |z| . (4.2.4)
Substituindo (4.2.2) em (4.2.4), temos
1
2
x
T
Gx z
T
(G+I)x
1
2
z
T
Gz z
T
(G+I)z . (4.2.5)
Rearranjando (4.2.5), segue que
1
2
(x z)
T
(G+I)(x z) 0
para todo x tal que |x| = |z|. Como z ,= 0, as dire c oes x z tais que
|x| = |z| envolvem todas as dire c oes do espa co exceto as ortogonais a z.
Agora, qualquer vetor ortogonal a z e o limite de uma seq uencia de vetores
v
k
para os quais, neste caso v
T
k
(G+I)v
k
0. Portanto, passando ao limite,
a express ao v
T
(G+I)v 0 vale tambem para os vetores v ortogonais a z.
Portanto, G+I 0.
56 CHAPTER 4. MINIMIZAC
AO DE QUADR
ATICAS
Se z = 0, por (4.2.2) temos b = 0. Ent ao z = 0 e solu c ao de
Minimizar
1
2
x
T
Gx +c sujeita a |x| ,
e, pelo Lema 4.1.4, G 0 e v
T
(G + I)v 0 vale para todo v IR
n
com
= 0. QED
O pr oximo resultado fornece condi c oes sucientes que garantem que z e
solu c ao de (4.2.1).
Teorema 4.2.2
Sejam IR e z IR
n
tais que
(G+I)z = b com (G+I) 0. (4.2.6)
(a) Se = 0 e |z| ent ao z e solu c ao de (4.2.1).
(b) Se |z| = ent ao z e solu c ao de
Minimizar q(x) sujeita a |x| = .
(c) Se 0 e |z| = ent ao z e solu c ao de (4.2.1).
Alem disso, se G+I > 0, ent ao z e unica em (a), (b) e (c).
Prova: Se e z satisfazem (4.2.6), z e minimizador da quadr atica
q(x) =
1
2
x
T
(G+I)x +b
T
x +c.
Logo,
1
2
x
T
(G+I)x +b
T
x +c
1
2
z
T
(G+I)z +b
T
z +c (4.2.7)
para todo x IR
n
.
De (4.2.7) segue que
q(x) q(z) +
2
(z
T
z x
T
x) (4.2.8)
para todo x IR
n
.
As arma c oes (a), (b) e (c) s ao conseq uencias imediatas de (4.2.8). A uni-
cidade segue de (4.2.7) pois se G + I > 0, a desigualdade e estrita para
x ,= z. QED
4.2. QUADR
ATICAS EM BOLAS 57
Os teoremas acima mostram que, se existe uma solu c ao z do problema (4.2.1)
situada na fronteira da bola, ela deve satisfazer, com seu multiplicador cor-
respondente , as seguintes equa c oes:
(G+I)z = b, |z| = . (4.2.9)
Alem disso, 0 e G + I 0. Solu c oes de (4.2.1) no interior da bola
s o podem existir se G e semidenida positiva e, nesse caso, z, com norma
menor que , deve ser solu c ao de (4.1.2).
Se
1
. . .
n
s ao os autovalores de G, a condi c ao G+I 0 e equivalente
a
1
. Assim, as duas limita c oes sobre o multiplicador , para detectar
solu c oes na fronteira, se resumem em
m aximo 0,
1
. (4.2.10)
Portanto, para encontrar as solu c oes de (4.2.1) na superfcie da bola de uma
maneira ingenua, dividimos o problema em duas quest oes:
(a) Existem solu c oes com >
1
?
(b)
1
e solu c ao de ()?
A segunda quest ao pode ser eliminada se
1
> 0, ou seja, se G e denida
positiva.
Examinemos a quest ao (a). Na regi ao >
1
o sistema (G+I)z = b tem
como solu c ao unica z = (G+I)
1
b j a que, neste caso, G+I e inversvel.
Portanto, encontrar >
1
satisfazendo () e equivalente a resolver
|(G +I)
1
b| = . (4.2.11)
ou
() =
2
, (4.2.12)
onde () |(G + I)
1
b|
2
. Parece bastante relevante, em conseq uencia,
estudar a forma da fun c ao univariada (). Consideremos a decomposi c ao
espectral G = QQ
T
, onde Q = (v
1
, . . . , v
n
), v
i
IR
n
e = diag (
1
, . . . ,
n
).
Pela invari ancia da norma euclidiana sob transforma c oes ortogonais, a fun c ao
() pode ser escrita como:
() = d
T
( +I)
2
d =
n
i=1
d
2
i
(
i
+)
2
, (4.2.13)
onde d = Q
T
b. A express ao (4.2.13) revela que
lim
() = 0. (4.2.14)
58 CHAPTER 4. MINIMIZAC
AO DE QUADR
ATICAS
Ao mesmo tempo,
lim
1
+
() = (4.2.15)
se, e somente se, d
i
= [Q
T
b]
i
,= 0 para algum i tal que
1
=
i
. Neste caso,
() e estritamente decrescente e convexa. Isto signica que, quando b n ao
e perpendicular ao subespa co de autovetores associado ao menor autovalor
de G, a equa c ao () tem uma unica solu c ao para >
1
, qualquer que
seja . Se essa solu c ao e maior ou igual a 0, (G + I)
1
b ser a o unico
minimizador global de (4.2.1).
Quando b e perpendicular ao subespa co de autovetores associado ao menor
autovalor de G a express ao de () e
() =
n
i=
d
2
i
(
i
+)
2
,
onde e o ndice do menor autovalor diferente de
1
. Portanto, nesse caso,
(
1
) =
n
i=
d
2
i
(
i
1
)
2
,
e uma unica solu c ao de () maior que
1
existir a se, e somente se, (
1
) >
. Quando isso acontece, a fun c ao tambem e convexa e estritamente
decrescente.
A an alise acima esgota o exame da existencia de solu c oes de () maiores que
1
. Suponhamos agora que existe z na fronteira da bola tal que (G
1
I)z = b. A matriz G
1
I e singular, portanto o sistema considerado
tem innitas solu c oes, e podemos considerar a solu c ao de norma mnima x
.
Usando a decomposi c ao espectral, temos
(
1
I)Q
T
x
= Q
T
b = d,
ou seja
(
i
1
)[Q
T
x
]
i
= d
i
para i = , . . . , n. (4.2.16)
Os graus de liberdade da equa c ao (4.2.16) s ao usados, na solu c ao de norma
mnima, escolhendo
[Q
T
x
]
i
= 0, para i = 1, . . . , 1. (4.2.17)
De (4.2.16) e (4.2.17) e f acil deduzir que
lim
1
(G+I)
1
b = x
4.2. QUADR
ATICAS EM BOLAS 59
e, portanto,
lim
1
() = |x
|
2
2
.
Portanto, neste caso, n ao pode haver nenhuma solu c ao de () com maior
que
1
.
Resumindo, a existencia de um minimizador global na fronteira com mul-
tiplicador maior que
1
e incompatvel com a existencia de outro min-
imizador global com o multiplicador igual a
1
. Pelo exposto, vemos
que, para que
1
seja o multiplicador otimo, b deve ser ortogonal ao
subespa co de autovetores associado a
1
. Para encontrar, nesse caso, um
minimizador global pode-se proceder encontrando uma solu c ao qualquer de
(G
1
I)x = b, um autovetor v associado a
1
e, nalmente, um ele-
mento da fronteira da bola com a forma x +tv.
O exposto acima mostra que, possuindo a decomposi c ao espectral de G, re-
solver o problema (4.2.1) carece de segredos. Como em geral a decomposi c ao
espectral e computacionalmente cara, procura-se desenvolver algoritmos que
a evitem. Via de regra, esses algoritmos resolvem a equa c ao () calculando
mediante uma fatora c ao de Cholesky de G+I para cada tentativa . Ver
[148]. Mais precisamente, resolve-se a equa c ao
1
|(G+I)
1
b|
=
1
que e mais favor avel ` a aplica c ao do metodo de Newton para achar zeros
de fun c oes que (). Ver [171], [115]. Agora, o caso em que o multiplicador
otimo e
1
, ou est a pr oximo desse valor crtico e complicado numerica-
mente, motivo pelo qual e conhecido como hard case na literatura. Atual-
mente trabalha-se intensamente em metodos para resolver (4.2.1) que usem
metodos iterativos lineares, em vez de fatora c oes de matrizes. Ver [188],
[180], [201].
Exerccio 4.9: Estabelecer e provar rigorosamente as propriedades de e
suas derivadas primeira e segunda. Provar que o n umero total de pontos
estacion arios de (4.2.1) na fronteira da bola e menor ou igual a 2 q, onde
q e o n umero de autovalores distintos de G.
Exerccio 4.10: Estudar as propriedades da fun c ao 1/
1/2
usada para en-
contrar efetivamente o multiplicador associado a uma solu c ao de (4.2.1).
60 CHAPTER 4. MINIMIZAC
AO DE QUADR
ATICAS
4.3 Quadraticas em caixas
Em muitos problemas pr aticos em que se deseja ajustar um modelo linear
a um conjunto de dados empricos, os par ametros desconhecidos tem sen-
tido fsico apenas em uma determinada regi ao do espa co. Nesses casos, em
vez de um problema puro de quadrados mnimos teremos um problema de
quadrados mnimos com restri c oes. A situa c ao mais comum e quando cada
par ametro n ao pode ser inferior a determinada cota, nem superior a outra.
Nesse caso, o conjunto de restri c oes toma a forma
l
i
x
i
u
i
para todo i = 1, . . . , n,
ou, mais brevemente,
l x u.
O conjunto IR
n
formado pelos pontos que satisfazem essas restri c oes
se diz uma caixa de IR
n
, denomina c ao mais confort avel que a alterna-
tiva hiperparaleleppedo.
E conveniente admitir os valores para
l
i
e + para u
i
, j a que, ` as vezes, apenas algumas vari aveis est ao natu-
ralmente limitadas e, outras, a limita c ao e somente inferior, ou superior.
Em problemas fsicos e muito comum que as inc ognitas, representando de-
terminados coecientes, devam ser positivas, em cujo caso e o ortante
x IR
n
[ x
i
0, i = 1, . . . , n.
Entretanto, como no caso da minimiza c ao em bolas, o problema de mini-
miza c ao de quadr aticas em caixas n ao tem interesse apenas por sua aplica c ao
direta. Como veremos mais adiante, este tambem e um subproblema muito
utilizado, de maneira iterativa, quando o objetivo ultimo e resolver um prob-
lema mais complicado, por exemplo, a minimiza c ao de uma fun c ao geral (n ao
quadr atica) numa caixa. Nesses casos, a matriz G ser a a Hessiana da fun c ao
objetivo num ponto dado e, como nada se sabe a priori sobre os autoval-
ores dessa matriz, e importante considerar n ao apenas o caso convexo, como
tambem o caso em que a matriz n ao e semidenida positiva.
Veremos que, contrariamente ` a minimiza c ao em bolas, em que podamos re-
conhecer perfeitamente um minimizador global mesmo no caso n ao convexo,
os algoritmos pr aticos que apresentaremos dever ao se contentar com pontos
estacion arios. Garantir um minimizador global nestes problemas e possvel,
mas apenas atraves de metodos muito caros computacionalmente. Ver [194].
Nosso problema e, pois,
Minimizar q(x)
sujeita a x ,
(4.3.1)
4.3. QUADR
ATICAS EM CAIXAS 61
onde = x IR
n
[ l x u , l < u, q(x) =
1
2
x
T
Gx + b
T
x + c. Se
G e semidenida positiva (4.3.1) e um problema convexo e os pontos esta-
cion arios coincidem com os minimizadores globais.
Denotaremos = minu
i
l
i
, i = 1, ..., n. Veremos que, nas opera c oes em
que aparecer a , a possibilidade = ter a interpreta c ao unvoca. Outra
nota c ao util ser a g(x) q(x) (Gx + b). Em v arias situa c oes (nas
provas te oricas, n ao no algoritmo) usaremos uma cota superior L > 0 do
maior autovalor de G. Teremos assim que, para todo x, z IR
n
,
q(z) q(x) q(x)
T
(z x) =
1
2
(z x)
T
G(z x)
L
2
|z x|
2
. (4.3.2)
Denimos uma face aberta de como um conjunto F
I
, onde I e um sub-
conjunto (talvez vazio) de 1, 2, . . . , 2n que n ao contem simultaneamente i
e n +i, i 1, 2, . . . , n, tal que
F
I
= x [x
i
= l
i
se i I, x
i
= u
i
se n+i I, l
i
< x
i
< u
i
nos outros casos .
Por exemplo, se = x IR
3
[ 1 x
1
5, 2 x
2
teremos F
{1,2}
=
x IR
3
[ x
1
= 1, x
2
= 2, F
{4}
= x IR
3
[ x
1
= 5, 2 < x
2
, F
= x
IR
3
[ 1 < x
1
< 5, 2 < x
2
e assim por diante. Claramente, faces abertas
correspondentes a sub-ndices diferentes s ao disjuntas (I ,= J implica que
a intersec c ao entre F
I
e F
J
e vazia) e e a uni ao de todas as suas faces
abertas.
Chamamos
F
I
o fecho de cada face aberta, V (F
I
) a menor variedade am
que contem F
I
, S(F
I
) o subespa co paralelo a V (F
I
) e dim F
I
a dimens ao
de S(F
I
).
E f acil ver que dim F
I
= n [I[, onde [I[ denota o n umero
de elementos de I, ou, em linguagem equivalente, o n umero de restri c oes
(ou canaliza c oes) ativas nos pontos de F
I
. Lembrando termos usados no
Captulo 2, podemos vericar tambem que todos os pontos de uma caixa
s ao regulares.
Para cada x denimos o gradiente projetado negativo, ou vetor de
Cauchy g
P
(x) IR
n
como
g
P
(x)
i
=
_
_
0 se x
i
= l
i
e [q(x)]
i
> 0
0 se x
i
= u
i
e [q(x)]
i
< 0
[q(x)]
i
nos outros casos.
(4.3.3)
Tanto por aplica c ao da condi c ao necess aria de otimalidade de primeira or-
dem, como por an alise direta, podemos vericar que, se x e minimizador
local ou global de (4.3.1), teremos
g
P
(x) = 0 . (4.3.4)
62 CHAPTER 4. MINIMIZAC
AO DE QUADR
ATICAS
Se G 0 a quadr atica e convexa e (4.3.4) passa a ser uma condi c ao suciente
para minimizador global.
Quando restringimos a fun c ao quadr atica a uma face aberta F
I
, as vari aveis
livres s ao apenas as que se encontram estritamente entre os limites denidos
pelo conjunto I. O vetor denido a seguir e o inverso aditivo do gradiente
em rela c ao a essas vari aveis livres. Assim, para cada x F
I
denimos
g
I
(x) IR
n
como
g
I
(x)
i
=
_
0 se i I ou n +i I
[q(x)]
i
nos outros casos.
(4.3.5)
Observamos que g
I
(x) e a proje c ao ortogonal de q(x) em S(F
I
). Tambem
podemos interpretar g
I
(x) como a componente de g
P
(x) no subespa co
S(F
I
). Naturalmente, g
P
(x) tem uma segunda componente, ortogonal a
S(F
I
), que chamamos gradiente chopado e denotamos por g
C
I
(x). Dessa
maneira, para cada x F
I
,
g
C
I
(x)
i
=
_
_
0 se i / I e n +i / I
0 se i I e [q(x)]
i
> 0
0 se n +i I e [q(x)]
i
< 0
[q(x)]
i
nos outros casos.
(4.3.6)
Como mencionamos acima, e f acil ver que, para todo x F
I
, o gradiente
interno g
I
(x) e ortogonal ao gradiente chopado, e
g
P
(x) = g
I
(x) + g
C
I
(x) .
O algoritmo para minimizar quadr aticas em caixas que apresentaremos pro-
duz uma seq uencia x
k
de aproxima c oes da solu c ao de (4.3.1) baseada na
minimiza c ao parcial da quadr atica nas diferentes faces visitadas. Quando
x
k
pertence a uma face F
I
, um algoritmo interno para minimiza c ao de
quadr aticas irrestritas ser a acionado, trabalhando apenas com as vari aveis
livres da face. A suposi c ao b asica ser a que esse algoritmo e convergente no
sentido de que ele produz, em um n umero nito de passos um ponto externo
a (mas pertencente, naturalmente, a V (F
I
)), ou que todo ponto limite do
algoritmo e um ponto estacion ario do problema, essencialmente irrestrito, de
minimizar q(x) sujeita a x V (F
I
). Em outras palavras, o algoritmo interno
encontra um ponto estacion ario restrito a F
I
ou viola as restri c oes inativas
dessa face. Em cada passo do algoritmo interno, vericamos se ele j a est a
bastante perto de um ponto estacion ario em F
I
. Para isso, comparamos
o tamanho do gradiente chopado com o tamanho do gradiente projetado.
4.3. QUADR
ATICAS EM CAIXAS 63
Se o quociente entre ambos e grande (o valor m aximo e 1), signica que o
gradiente interno e pequeno em rela c ao ao gradiente chopado e, portanto,
continuar explorando a face F
I
e pouco econ omico, ou seja, abandonar as
cotas que est ao ativas em F
I
parece mais razo avel. Isso e feito usando a
dire c ao do gradiente chopado. Veremos que a seq uencia de pontos assim
denida e convergente a pontos estacion arios de (4.3.1), que s ao solu c oes
do problema no caso convexo. Este algoritmo e, essencialmente, o denido
em [12], com antecedentes nos trabalhos [79], [78], [82], [81], [149].
Provavelmente, agora o leitor percebe mais claramente nosso interesse na
propriedade (4.1.7), ou em propriedades an alogas. Como o algoritmo ir-
restrito usado em F
I
tem um papel essencial no desempenho do metodo
principal desta se c ao, vamos estabelecer rigorosamente quais devem ser suas
caractersticas.
Diremos que um algoritmo para minimizar q(x) em V (F
I
) (problema, essen-
cialmente, irrestrito) tem as propriedades boas para a minimiza c ao em caixas
quando produz uma seq uencia z
0
, z
1
, z
2
, . . . V (F
I
), z
0
F
I
(talvez
nita) que cumpre o seguinte:
(a) Se z
k
e z
k+1
est ao denidos, ent ao q(z
k+1
) < q(z
k
).
(b) Se z
k+1
n ao est a denido (a seq uencia termina em z
k
) isto pode ser
devido a dois motivos: z
k
e um ponto estacion ario da minimiza c ao de q(x)
em V (F
I
) ou foi encontrada uma dire c ao d
k
tal que
lim
t
q(z
k
+td
k
) = .
Neste caso, se z
k
+td
k
para todo t, a inexistencia de solu c ao de (4.3.1)
ca caracterizada. Se, pelo contr ario, z
k
+ td
k
/ para t grande, escolhe-
se um ultimo z
k+1
= z
k
+ td
k
tal que q(z
k+1
) < q(z
k
) e d a-se por
terminada a seq uencia gerada pelo algoritmo interno em z
k+1
.
(c) Se a seq uencia z
k
e innita, ent ao todo ponto limite da mesma e um
ponto estacion ario q sujeita a V (F
I
). Se n ao existem pontos limite (logo
|z
k
| ) deve-se satisfazer
lim
k
q(z
k
) = .
Vejamos que os algoritmos para minimizar quadr aticas sem restri c oes que es-
tudamos na se c ao 4.1 satisfazem essas condi c oes. O metodo direto, baseado
na fatora c ao de Cholesky da matriz G reduzida (as vari aveis correspon-
dentes ` as restri c oes ativas em F
I
est ao xas) encontra o minimizador de
Q em V (F
I
) em um passo, se a quadr atica q restrita a V (F
I
) e estrita-
mente convexa (a Hessiana reduzida e denida positiva). Portanto, satisfaz
64 CHAPTER 4. MINIMIZAC
AO DE QUADR
ATICAS
claramente (a) e (b) e a hip otese de (c) e vazia porque a seq uencia termina
em z
1
. Quando a Hessiana reduzida n ao e denida positiva, a fatora c ao
de Cholesky n ao poder a ser completada. Suponhamos que a fatora c ao es-
pectral e vi avel. Nesse caso, j a vimos que podemos obter um minimizador
irrestrito, quando existe, ou uma dire c ao que satisfaz (4.1.7), portanto, o
algoritmo que combina fatora c ao de Cholesky com decomposi c ao espectral
satisfaz as condi c oes acima. Se a fatora c ao espectral e invi avel, podemos
usar a fatora c ao Bunch-Parlett, ou resolver a seq uencia de problemas
Minimizar q(z) sujeita a z V (F
I
), |z z
k
| (4.3.7)
para grande, usando o metodo de More e Sorensen comentado na se c ao
4.2, que usa apenas fatora c oes de Cholesky de matrizes denidas positivas.
Se z
k
e solu c ao de (4.3.7), ent ao z
k
e minimizador de q restrita a V (F
I
)
e o algoritmo p ara. Se (4.3.7) gera uma seq uencia innita, teremos que
todo ponto de acumula c ao da mesma e estacion ario de q em V (F
I
), ou os
valores de q(x
k
) tendem a (exerccio para o leitor). Em qualquer caso,
as condi c oes (a), (b) e (c) se satisfazem.
As propriedades do metodo dos gradientes conjugados, para minimizar q em
V (F
I
) foram estudadas na se c ao 4.1. Vimos que esse metodo termina em um
ponto estacion ario em um n umero nito de passos ou gera uma dire c ao ao
longo da qual a quadr atica tende a . Portanto, satisfaz as condi c oes (a),
(b) e (c). Em [12] s ao estudados outros metodos iterativos que satisfazem
essas condi c oes em determinadas circunst ancias.
Agora podemos denir o algoritmo para minimizar quadr aticas em caixas,
com um alto grau de liberdade, devido ` a exibilidade na escolha do algo-
ritmo interno a F
I
. De fato, observemos que nada obriga a que o mesmo
algoritmo interno seja utilizado em todas as caixas. Por exemplo, como ob-
servado em [12], diferentes algoritmos podem ser usados em diferentes faces,
tendo em conta a dimens ao da mesma.
Algorithm 4.3.1 - Minimiza c ao de quadr aticas em caixas.
Seja (0, 1) dado indepentemente de k, e x
0
um ponto inicial ar-
bitr ario. O algoritmo dene uma seq uencia x
k
em e p ara se | g
P
(x
k
)| =
0. Suponhamos que x
k
e tal que | g
P
(x
k
)| ,= 0. Seja I = I(x
k
) tal que
x
k
F
I
. Chamemos (x) ao minimizador de q ao longo do segmento
(talvez semi-reta) x [ x = x
k
+ t g
C
I
(x
k
), t 0. Os seguintes passos
denem o procedimento para encontrar x
k+1
.
Passo 1: Come cando com z
0
= x
k
, usar um metodo com as propriedades
4.3. QUADR
ATICAS EM CAIXAS 65
boas para minimiza c ao de quadr aticas em caixas aplicado ao problema
essencialmente irrestrito de minimizar q(x) em V (F
I
), obtendo assim z
0
=
x
k
, z
1
= x
k+1
, . . .. Interromper esse metodo quando x
k
satisfaz uma das
seguintes condi c oes:
(a)
x
k
e | g
P
(x
k
)| = 0; (4.3.8)
(b) O metodo interno detectou que (4.3.1) e ilimitado inferiormente.
(c)
| g
C
I
(x
k
)| > | g
P
(x
k
)|; (4.3.9)
(d)
z
+1
/ . (4.3.10)
Passo 2: Se o metodo interno foi interrompido por (4.3.8), parar (x
k
e
um ponto estacion ario de (4.3.1)). Se o metodo interno detecta que (4.3.1)
n ao tem solu c ao, o algoritmo principal e interrompido com esse mesmo di-
agn ostico.
Passo 3: Se o teste (4.3.9) foi satisfeito em x
k
, e q n ao e limitada inferior-
mente no segmento (nesse caso, necessariamente, semi-reta) x+t g
C
I
(x
k
), t
0 o problema (4.3.1) n ao tem solu c ao. Nesse caso, parar. Em caso contr ario,
calcular x
k+1
= (x
k
).
Passo 4: Se x
k
= z
e z
+1
viola os limites de
F
I
(condi c ao (4.3.10)), encon-
trar x
k+1
na fronteira de F
I
(
F
I
F
I
) tal que q(x
k+1
) < q(x
k
) ou detectar
que o problema (4.1.3) n ao tem solu c ao.
Comprovar que o Algoritmo 4.3.1 est a bem denido consiste em provar que
o Passo 4 e possvel. Pelas propriedades do algoritmo interno, temos que
q(z
+1
) < q(x
k
). Agora, (t) q(x
k
+ t(z
+1
x
k
)) e uma par abola como
fun c ao de t. Logo, (t) decresce em forma mon otona entre t = 0 e t = 1, ou
(t) e estritamente crescente para t < 0. No primeiro caso, avan cando desde
t = 0, no sentido positivo, ate a fronteira, encontramos um ponto onde a
quadr atica diminui de valor. Na segunda situa c ao ocorre essencialmente o
mesmo, avan cando no sentido negativo de t. Nos dois casos, o ponto en-
contrado est a na reta determinada por x
k
e z
+1
. Em algoritmos pr aticos,
o ponto da fronteira encontrado ser a, via de regra, melhor que o denido
neste par agrafo.
No seguinte lema vamos considerar a situa c ao em que a condi c ao (4.3.9) e
satisfeita e (x
k
) existe, ou seja, pelo menos neste passo n ao e detectada
a eventualidade de que a quadr atica seja ilimitada inferiormente, e x
k+1
e
66 CHAPTER 4. MINIMIZAC
AO DE QUADR
ATICAS
denido como sendo (x
k
). Essencialmente, mostraremos que o decrescimo
obtido de x
k
ate x
k+1
e proporcional ` a norma de g
P
(x
k
).
Lema 4.3.2
Se x
k+1
= (x
k
) e obtido no Passo 3 do Algoritmo 4.3.1, ent ao
q(x
k
) q(x
k+1
) min
2
| g
P
(x
k
)| ,
2
2L
| g
P
(x
k
)|
2
.
Prova: Como o teste (4.3.9) e satisfeito, ent ao g
C
I
(x
k
) ,= 0. Portanto,
x
k
+ t g
C
I
(x
k
) para todo t [0,
t], onde
t = /| g
C
I
(x
k
)|. Consideremos
a quadr atica unidimensional denida por
(t) = q(x
k
+t g
C
I
(x
k
)) = q(x
k
) +tq(x
k
)
T
g
C
I
(x
k
) +
1
2
t
2
g
C
I
(x
k
)
T
G g
C
I
(x
k
) .
Se g
C
I
(x
k
)
T
G g
C
I
(x
k
) > 0 ent ao o unico minimizador irrestrito de (t) e dado
por
t
=
| g
C
I
(x
k
)|
2
g
C
I
(x
k
)
T
G g
C
I
(x
k
)
.
Se x
k
+t
g
C
I
(x
k
) n ao est a em , ent ao x
k+1
= (x
k
) e realizado para algum
t tal que
t
t < t
, e
q(x
k
+
t g
C
I
(x
k
) q(x
k
+
t g
C
I
(x
k
)) . (4.3.11)
Substituindo
t em (t), obtemos
(
t) = q(x
k
) | g
C
I
(x
k
)| +
2
g
C
I
(x
k
)G g
C
I
(x
k
)
2 | g
C
I
(x
k
)|
2
. (4.3.12)
Usando (4.3.12) e o fato de que t
>
t, segue-se que
q(x
k
+
t g
C
I
(x
k
)) q(x
k
) <
2
| g
C
I
(x
k
)| . (4.3.13)
Combinando (4.3.11) e (4.3.13), temos
q(x
k
) q(x
k+1
) >
2
| g
C
I
(x
k
)| >
2
| g
P
(x
k
)| . (4.3.14)
4.3. QUADR
ATICAS EM CAIXAS 67
Agora, se x
k
+t
g
C
I
(x
k
) est a em , ent ao esse ponto e x
k+1
e obtemos
q(x
k+1
) q(x
k
) =
| g
C
I
(x
k
)|
4
2 g
C
I
(x
k
)
T
G g
C
I
(x
k
)
. (4.3.15)
Portanto, usando (4.3.2) e (4.3.15), temos:
q(x
k
) q(x
k+1
) >
1
2L
| g
C
I
(x
k
)|
2
>
2
2L
| g
P
(x
k
)|
2
. (4.3.16)
Analisemos agora a situa c ao em que g
C
I
(x
k
)
T
G g
C
I
(x
k
) 0. Nesse caso,
(t) q(x
k
) +tq(x
k
)
T
g
C
I
(x
k
) ,
e q(x
k+1
) < (
t) q(x
k
) | g
C
I
(x
k
)|. Portanto,
q(x
k
) q(x
k+1
) > | g
C
I
(x
k
)| > | g
P
(x
k
)| . (4.3.17)
Resumindo, existem tres casos possveis: x
k
+t
g
C
I
(x
k
) factvel, ou infactvel,
ou g
C
I
(x
k
)
T
G g
C
I
(x
k
) 0. Em cada caso obtemos, respectivamente, (4.3.14),
(4.3.16) e (4.3.17), o que implica a tese. QED
Em continua c ao, provamos a convergencia global do Algoritmo 4.3.1.
Lembramos primeiro as condi c oes nas quais o algoritmo p ara, isto e, gera
uma seq uencia nita: quando encontra um ponto estacion ario x
k
de (4.3.1)
ou quando detecta que o problema e ilimitado inferiormente, e, portanto, sem
solu c ao. Basicamente, provaremos que, se o algoritmo gera uma seq uencia
innita, haver a, essencialmente, as mesmas duas possibilidades: encontraremos
um gradiente projetado arbitrariamente pequeno, ou a seq uencia dos valores
funcionais em x
k
tender a a .
Teorema 4.3.3
Suponhamos que o Algoritmo 4.3.1 gera uma seq uencia innita x
k
. Ent ao,
existem duas possibilidades:
liminf
k
| g
P
(x
k
)| = 0 (4.3.18)
e
lim
k
q(x
k
) = . (4.3.19)
Proof. Suponhamos que (4.3.18) n ao se cumpre. Portanto, existe > 0 tal
que
| g
P
(x
k
)| > para todo k . (4.3.20)
68 CHAPTER 4. MINIMIZAC
AO DE QUADR
ATICAS
Consideramos dois casos:
(a) A condi c ao (4.3.9) e satisfeita em um n umero nito de itera c oes.
(b) Existe um conjunto innito de ndices K
1
^ tal que (4.3.9) e satisfeita
para todo k K
1
.
Se (a) vale, ent ao existe k
0
tal que x
k
F
I
para um I xo, e para todo
k k
0
. Portanto, a seq uencia e gerada pelo algoritmo interno para todo
k k
0
. Pelas propriedades do algoritmo interno, temos que, se |x
k
| ,
vale (4.3.19). Se pelo contr ario, x
k
admite uma subseq uencia limitada e
convergente, x
k
kK
2
, devemos ter
lim
kK
2
|g
I
(x
k
)| = 0.
Agora, como (4.3.9) n ao se satisfaz para nenhum k K
2
, necessariamente
|g
C
I
(x
k
)| e |g
P
(x
k
)| tambem tendem a 0 para k K
2
, o que contradiz
(4.3.20). Portanto, a tese do teorema ca provada no caso (a).
Suponhamos agora que vale (b). Seja k
j
o j-esimo ndice de K
1
, j ^.
Usando (4.3.20), o Lema 4.3.2 e o fato de que q(x
k
) e monotonicamente
decrescente, obtemos
q(x
k
j
) q(x
k
1
) =
k
j
1
l=k
1
(q(x
l+1
) q(x
l
))
k
j
1
lK
1
, l=k
1
(q(x
l+1
) q(x
l
))
k
j
1
lK
1
, l=k
1
min
2
| g
P
(x
l
)|,
2L
| g
P
(x
l
)|
2
< j min
2
,
2L
2
(4.3.21)
Usando (4.3.21) concluimos que, neste caso,
lim
j
q(x
k
j
) = .
Portanto, o teorema est a provado. QED
Examinemos algumas conseq uencias do resultado provado no Teorema 4.3.3.
Se a seq uencia gerada pelo algoritmo e limitada, o que, sem d uvida, aconte-
cer a, por exemplo, quando os limitantes l
i
e u
i
n ao assumem valores innitos,
a possibilidade de que a sequencia q(x
k
) seja ilimitada inferiormente deve
ser excluda. Portanto, nesse caso, temos uma subseq uencia x
k
kK
1
onde
4.3. QUADR
ATICAS EM CAIXAS 69
os gradientes projetados tendem a 0. Por compacidade, essa subseq uencia
tem, por sua vez, uma subseq uencia convergente. Consideremos agora qual-
quer subseq uencia convergente x
k
kK
2
, com limite, digamos, x
F
I
. Se
l
i
< [x
]
i
< u
i
, segue-se que l
i
< [x
k
]
i
< u
i
para todo k K
2
suciente-
mente grande. Portanto, a iesima derivada parcial de q em x
k
tende a 0
e, conseq uentemente, [q(x
)]
i
= 0. Se [x
]
i
= l
i
, teremos que [x
k
]
i
l
i
para todo k K
2
sucientemente grande, digamos k k
0
. Denimos
K
3
= k K
2
[ [x
k
]
i
> l
i
, k k
0
e K
4
= k K
2
[ [x
k
]
i
= l
i
, k k
0
.
Claramente, pelo menos um desses conjuntos e innito. Se K
3
e innito, ter-
emos que [q(x
k
)]
i
= [ g
P
(x
k
)]
i
0 para k K
3
, portanto [q(x
)]
i
= 0.
Se K
4
e innito, teremos que min 0, [q(x
k
)]
i
0 para k K
3
, logo
min 0, [q(x
)]
i
0. Portanto, em todos os casos chegamos ` a conclus ao
que g
P
(x
ATICAS
denida por x
k
e z, projetamos z na caixa , obtendo, digamos z
(1)
. Este
ponto projetado ter a como ativas todas as canaliza c oes que eram violadas
em z, que s ao, em geral, mais que as ativas no ponto do segmento que une x
k
com z. Assim, testamos se q(z
(1)
) < q(x
k
) e o aceitamos como x
k+1
em caso
positivo. Sen ao, substitumos z por, digamos, x
k
+ (z x
k
)/2 e repetimos
o processo. Se as redu c oes se repetem tantas vezes que o ponto z ca per-
tencendo a , nos conformamos com o ponto fronteira da reta [x
k
, z], que,
como vimos, satisfaz pelo menos a condi c ao requerida para convergencia.
Uma ultima observa c ao e a seguinte. O esquema do Algoritmo 4.3.1 e v alido
tanto para problemas de grande como de pequeno porte. A diferen ca entre
uns e outros radica apenas na escolha do algoritmo interno. Quando o prob-
lema e pequeno, e s ao usadas fatora c oes de Cholesky, e f acil ver que o c alculo
de x
k+1
no caso em que (4.3.9) se verica e quase sempre irrelevante, j a que,
independentemente de (x
k
), na maioria dos casos x
k+2
ser a o mesmo. Mas
isto e uma sutileza da qual n ao precisamos nos ocupar no momento.
72 CHAPTER 4. MINIMIZAC
AO DE QUADR
ATICAS
Chapter 5
Sistemas de equa c oes
nao-lineares
As condi c oes de otimalidade de primeira ordem dos problemas de otimiza c ao
s ao sistemas n ao lineares, onde as inc ognitas s ao as vari aveis do problema
e, ` as vezes, tambem os multiplicadores de Lagrange. Al`em disso, quando
se trata de minimiza c ao com restri c oes de desigualdade, apenas as solu c oes
que satisfazem determinadas inequa c oes s ao uteis. Portanto, de certo modo,
a arte da otimiza c ao est a includa na arte de resolver sistemas n ao lineares.
Por outro lado, quando F(x) = 0 (F : IR
n
IR
n
) e resol uvel, encontrar as
razes desse sistema e equivalente a achar o minimizador global de |F(x)|
onde | | e uma norma qualquer em IR
n
. Desse ponto de vista, a resolu c ao de
sistemas n ao lineares pode ser considerada um caso particular da otimiza c ao.
Entretanto, os problemas de otimiza c ao tem muita estrutura adicional, o
que justica a introdu c ao de metodos especcos, que transcendem a mera
aplica c ao de algoritmos para resolver sistemas. Com efeito, nas condi c oes
necess arias de primeira ordem, apenas as derivadas do problema est ao rep-
resentadas, e n ao, por exemplo, a fun c ao objetivo original. Como con-
seq uencia, os metodos para sistemas n ao lineares, quando aplicados ` as condi c oes
de otimalidade, tem diculdades em diferenciar minimizadores de maxi-
mizadores j a que, freq uentemente, as condi c oes de otimalidade para am-
bos tipos de extremos s ao as mesmas. Por outro lado, quando F(x) = 0 e
transformado em um problema de otimiza c ao atraves da norma da fun c ao
vetorial, aparecem estruturas pr oprias do sistema, como o fato da fun c ao
objetivo ser, geralmente, uma soma de quadrados.
Muitos problemas pr aticos de fsica, engenharia, economia e outras ciencias
s ao modelados de maneira muito conveniente por sistemas n ao lineares.
E
73
74 CHAPTER 5. SISTEMAS DE EQUAC
OES N
AO-LINEARES
usual, nesses casos, que alguma vers ao moderna de um velho algoritmo, o
metodo de Newton, seja usada com sucesso. Esse metodo, como outros
que veremos neste captulo, e, na sua forma b asica, um metodo iterativo
local, no sentido de que podemos garantir, apenas, a convergencia a uma
solu c ao supondo que o ponto inicial usado como aproxima c ao da mesma
j a e sucientemente bom. A praticidade desses metodos radica em que,
geralmente, a vis ao te orica que exige um ponto inicial muito bom e excessi-
vamente pessimista e, em muitos casos, os metodos locais convergem mesmo
se a aproxima c ao inicial n ao e boa. Um caso extremo e quando o sistema
n ao linear e, de fato, linear, e o metodo de Newton encontra a solu c ao em
uma itera c ao, independentemente do ponto inicial.
Nos metodos locais para sistemas n ao lineares encontramos os germes para
muitos algoritmos de otimiza c ao. Essa e a principal motiva c ao para seu
estudo independente neste livro. Algumas arma c oes b asicas, do tipo o
metodo de Newton tem convergencia quadr atica ou os metodos quase-
Newton s ao superlineares formam parte tanto do folclore de otimiza c ao
quanto de resolu c ao de sistemas. Aqui veremos, com certo rigor, em que
condi c oes tais arma c oes s ao v alidas.
Neste captulo, nosso problema ser a, sempre, resolver
F(x) = 0 , F : IR
n
IR
n
, F C
1
(IR
n
) .
Utilizaremos a seguinte nota c ao para a fun c ao F e para a matriz Jacobiana
J:
F(x) =
_
_
_
f
1
(x)
.
.
.
f
n
(x)
_
_
_ e J(x) = F
(x)=
_
_
_
f
1
(x)
.
.
.
f
n
(x)
_
_
_=
_
_
_
f
T
1
(x)
.
.
.
f
T
n
(x)
_
_
_.
5.1 O metodo de Newton
Em todos os cursos elementares de c alculo numerico, estuda-se o metodo de
Newton (tambem conhecido como Newton-Raphson) no contexto de achar
zeros de fun c oes. Sua generaliza c ao para sistemas foi proposta pela primeira
vez n ao por Newton, mas por Simpson, eminente matem atico do seculo
XVIII (ver [206]).
O princpio em que se baseia o metodo e paradigm atico na resolu c ao aprox-
imada de problemas matem aticos: o objetivo nal e um problema difcil
5.1. O M
ETODO DE NEWTON 75
(neste caso F(x) = 0), a solu c ao do qual vai sendo aproximada por uma
seq uencia de pontos x
k
. Dada cada aproxima c ao x
k
, constr oi-se, com a
informa c ao disponvel nesse ponto, um problema f acil, que sabemos re-
solver. A aproxima c ao x
k+1
e a solu c ao do problema f acil. O problema f acil
muda de uma itera c ao para a seguinte e, via de regra, sua solu c ao est a cada
vez mais pr oxima da solu c ao do problema difcil original.
No nosso problema atual, o kesimo problema f acil vem de considerar a
aproxima c ao de Taylor de primeira ordem de F(x), numa vizinhan ca do
ponto atual x
k
:
F(x) L
k
(x) = F(x
k
) +J(x
k
)(x x
k
) . (5.1.1)
Seguindo o princpio descrito acima, o ponto seguinte x
k+1
e uma solu c ao
de
L
k
(x) = 0 . (5.1.2)
Se J(x
k
) e n ao-singular, (5.1.2) tem solu c ao unica, e ent ao a itera c ao Newton
consiste em resolver um sistema linear:
J(x
k
)s
k
= F(x
k
)
x
k+1
= x
k
+s
k
.
(5.1.3)
A implementa c ao de (5.1.3) pressup oe o c alculo de J(x
k
), isto e, a avalia c ao
das derivadas primeiras das fun c oes f
i
(x), i = 1, . . . , n. Ate poucos anos
atr as, o c alculo de derivadas era considerado n ao s o difcil mas tambem
muito suscetvel a erros humanos. Atualmente, a possibilidade de falha hu-
mana pode ser evitada, atraves das diferencia c oes simb olica e autom atica.
AO-LINEARES
n ao singular e com a aproxima c ao inicial Ax
0
+ b, s ao os pontos da forma
Ax
k
+b.
Uma varia c ao de (5.1.3) com praticamente as mesmas propriedades te oricas
e pr aticas que evita o enfadonho c alculo de derivadas e o chamado metodo
de Newton discreto. O esquema desse metodo e o descrito em (5.1.3)
com a exce c ao de que as derivadas consideradas n ao s ao as analticas mas
suas aproxima c oes por diferen cas nitas. Mais precisamente, a coluna j de
J(x
k
) e substituda por [F(x
k
+ he
j
) F(x
k
)]/h, onde h e um passo (de
discretiza c ao) pequeno e e
1
, . . . , e
n
e a base can onica de IR
n
. A imple-
menta c ao de uma itera c ao do metodo de Newton discreto, embora n ao exija
o c alculo de derivadas, demanda a avalia c ao da fun c ao F em n + 1 pon-
tos. Isto pode ser bastante caro computacionalmente, por isso, sempre que
possvel, as derivadas analticas devem ser utilizadas.
A resolu c ao do sistema linear (5.1.3) quando a matriz Jacobiana e n ao-
singular pode ser obtida via fatora c ao LU (varia c ao da cl assica elimina c ao
gaussiana), com um custo de O(
n
3
3
) opera c oes. Caso J(x
k
) seja singular,
deve-se adotar alguma estrategia especial, para n ao inibir o prosseguimento
do metodo. Ver, por exemplo, [101].
Portanto, o trabalho realizado em uma itera c ao do metodo de Newton con-
siste na avalia c ao de F em x
k
e suas derivadas, mais as O(
n
3
3
) opera c oes
necess arias para resolver (5.1.3). O termo em n
3
cresce de maneira dram atica
com o aumento do porte do problema. Felizmente, em muitos problemas
grandes e vi avel o uso de tecnicas de fatora c ao LU esparsa, utilizando-se
estruturas de dados adequadas com previs ao de possveis preenchimentos.
Por exemplo, se J(x
k
) tem estrutura tridiagonal, sua fatora c ao e a resolu c ao
de sistema correspondente podem ser efetuadas com O(n) opera c oes. Para
outros problemas de grande porte, no entanto, o metodo de Newton pode
se tornar invi avel.
5.2 Metodos quase-Newton
Se aceitamos a ideia de que o metodo de Newton e bom mas caro, parece
natural a introdu c ao de metodos quase t ao bons quanto Newton, mas
bem mais baratos. A maioria dos metodos quase-Newton foi estabelecida
com esses objetivos. Para ser (quase) t ao bons como Newton, esses metodos
devem ser parecidos com seu arquetipo sob v arios pontos de vista. Por isso,
deniremos como metodos quase-Newton aqueles algoritmos para sistemas
n ao lineares cuja itera c ao tem o seguinte formato:
5.2. M
ETODOS QUASE-NEWTON 77
B
k
s
k
= F(x
k
)
x
k+1
= x
k
+s
k
.
(5.2.1)
Assim, o pr oprio metodo de Newton e um metodo quase-Newton, o que e
esteticamente agrad avel. Entretanto, metodos quase-Newton pr aticos ser ao
apenas aqueles em que B
1
k+1
possa ser obtida facilmente a partir de B
1
k
,
isto e, com com n ao mais de O(n
2
) opera c oes. Dessa maneira, os c alculos em
(5.2.1) poder ao ser efetuados com um custo de O(n
2
) em termos de tempo
por itera c ao. Algumas implementa c oes de metodos quase-Newton trabal-
ham com fatora c oes das matrizes B
k
, e n ao com suas inversas. Nesses casos,
mostra-se que a fatora c ao de B
k+1
pode ser obtida a partir da fatora c ao de
B
k
em tempo proporcional a n
2
.
Desta forma, vemos que o esfor co computacional O(
n
3
3
) empregado por New-
ton diminui para O(n
2
) quando se utilizam metodos quase-Newton adequa-
dos. Infelizmente, esta redu c ao nos custos e paga com redu c ao na velocidade
de convergencia, conforme veremos na se c ao 5.4.
O metodo quase-Newton mais simples e o chamado metodo de Newton esta-
cion ario, que se obtem xando B
k
J(x
0
). Outra varia c ao bastante
tradicional e o metodo de Newton estacion ario com recome cos a cada m
itera c oes: Fixado um inteiro m, se k e m ultiplo de m, tomamos B
k
= J(x
k
).
Sen ao, B
k
= B
k1
. Com o objetivo de estabelecer um compromisso entre
a eciencia do metodo de Newton e o baixo custo do metodo de Newton
estacion ario, existem estudos te oricos para encontrar o m otimo no caso de
problemas especcos (ver [184]).
Uma outra famlia de metodos obedecendo a losoa quase-Newton e a dos
metodos secantes. Assim como o metodo de Newton e a generaliza c ao para
sistemas do algoritmo com o mesmo nome para achar zeros de fun c oes, os
metodos secantes s ao as generaliza c oes dos algoritmos assim denominados
para o problema unidimensional. Pensemos, como antes, que na itera c ao k
a fun c ao F(x) e aproximada por L
k
(x) = F(x
k
) + B
k
(x x
k
). Escrevendo
o mesmo tipo de aproxima c ao para a itera c ao k + 1, temos
F(x) L
k+1
(x) = F(x
k+1
) +B
k+1
(x x
k+1
).
A ideia secante consiste em impor que fun c ao linear L
k+1
(x) interpole a
fun c ao verdadeira nos pontos x
k+1
e x
k
. Em outras palavras,
L
k+1
(x
k+1
) = F(x
k+1
) e L
k+1
(x
k
) = F(x
k
).
A condi c ao L
k+1
(x
k+1
) = F(x
k+1
) e automaticamente satisfeita pela deni c ao
de L
k+1
. Quanto ` a condi c ao L
k+1
(x
k
) = F(x
k
), podemos ver que e equiva-
78 CHAPTER 5. SISTEMAS DE EQUAC
OES N
AO-LINEARES
lente a
F(x
k
) = F(x
k+1
) +B
k+1
(x
k
x
k+1
),
ou
B
k+1
s
k
= y
k
, (5.2.2)
onde y
k
= F(x
k+1
) F(x
k
) .
A equa c ao () e chamada equa c ao secante por motivos agora obvios. Podemos
pensar () como um sistema linear cuja inc ognita e a matriz. Assim interpre-
tado, o sistema tem n
2
vari aveis (as entradas de B
k+1
) e apenas n equa c oes.
Portanto, somente no caso n = 1 o sistema poder a ter solu c ao unica. Se
n > 1 e s
k
,= 0 haver a innitas matrizes B (uma variedade am em IR
nn
)
que satisfazem Bs
k
= y
k
. Diferentes escolhas dessa matriz denem difer-
entes metodos secantes. Por exemplo, se procuramos B
k+1
de maneira que
a diferen ca B
k
B
k+1
B
k
seja uma matriz de posto unit ario, teremos,
por (),
B
k
s
k
= y
k
B
k
s
k
e poderemos tomar
B
k
=
(y
k
B
k
s
k
)w
T
k
w
T
k
s
k
com w
k
IR
n
arbitr ario e n ao ortogonal a s
k
.
A escolha w
k
= s
k
dene o primeiro metodo de Broyden. Se w
k
= y
k
B
k
s
k
,
o metodo e conhecido como corre c ao simetrica de posto um.
O interessante neste tipo de corre c ao e que B
1
k+1
tambem pode ser obtida a
partir de B
1
k
mediante uma corre c ao de posto um. A express ao para esta
corre c ao pode ser calculada usando-se a f ormula de Sherman-Morrison [96],
com um custo, facilmente veric avel, da ordem de O(n
2
) opera c oes.
O fato de que B
1
k+1
B
1
k
seja uma matriz da forma u
k
v
T
k
faz com que
toda a informa c ao relativa a B
1
k+1
esteja contida em B
1
0
, e nos vetores
u
0
, v
0
, u
1
, v
1
, . . . , u
k
, v
k
. (Veremos isso com detalhe no exerccio 5.2.) Logo,
se B
0
e uma matriz sucientemente simples, de tal forma que a informa c ao
relativa a sua inversa ou sua fatora c ao LU seja armazen avel em poucas
posi c oes de mem oria (digamos, O(n)), toda a informa c ao necess aria para
multiplicar B
1
k+1
por um vetor ocupa O(kn) posi c oes, e o citado produto
pode ser efetuado com O(kn) opera c oes. Essa observa c ao fornece os elemen-
tos para a utiliza c ao de metodos secantes em problemas de grande porte.
5.3. M
, v
que
denem as atualiza c oes das sucessivas aproxima c oes jacobianas B
k
.
Exerccio 5.1: Provar a f ormula de Sherman-Morrison: se A e n ao-singular
ent ao A+uv
T
e n ao singular se, e somente se, v
T
A
1
u ,= 1. Nesse caso,
(A +uv
T
)
1
= A
1
A
1
uv
T
A
1
1 +v
T
A
1
u
.
Usando essa f ormula, provar que quando se usa uma corre c ao de posto um
para gerar B
k+1
,
B
1
k+1
= B
1
k
+
(s
k
B
1
k
y
k
)w
T
k
w
T
k
B
1
k
y
k
B
1
k
.
Exerccio 5.2: Chamando u
k
=
s
k
B
1
k
y
k
w
T
k
B
1
k
y
k
, comprovar que
B
1
k
= (I +u
k1
z
T
k1
) . . . (I +u
0
z
T
0
)B
1
0
, k = 1, 2, . . .
isto e, na resolu c ao de (5.2.1) basta armazenar os vetores u
0
, z
0
, . . . , u
k1
, z
k1
.
Exerccio 5.3: Caracterizar geometricamente o primeiro metodo de Broy-
den, mostrando que |B
k+1
B
k
|
F
|BB
k
|
F
, para toda matriz B IR
nn
tal que Bs
k
= y
k
. | |
F
e a norma de Frobenius: para A IR
mn
,
|A|
F
= (
m
i=1
n
j=1
a
2
ij
)
1
2
. Provar que a mesma propriedade vale usando a
norma euclidiana em vez da norma de Frobenius.
5.3 Metodos de Newton truncados
Quando n e muito grande, e a estrutura da matriz J(x) n ao e favor avel
para uma fatora c ao LU esparsa, a resolu c ao do sistema linear newtoniano
(5.1.3) por metodos diretos ca impratic avel. Os metodos quase-Newton
80 CHAPTER 5. SISTEMAS DE EQUAC
OES N
AO-LINEARES
com mem oria limitada s ao uma alternativa eciente em muitos casos, como
vimos na se c ao anterior. No entanto, nesses metodos, necessitamos que
B
1
0
(ou uma fatora c ao de B
0
) seja simples, o que, freq uentemente, n ao e
o caso para matrizes pr oximas de J(x
0
). Isso signica que, ` as vezes, para
implementar um metodo quase-Newton com mem oria limitada, precisamos
come car com uma matriz B
0
bem diferente de um Jacobiano verdadeiro,
fazendo com que as primeiras itera c oes do metodo quase-Newton (sobretudo
a primeira) sejam quase aleat orias. Por exemplo, suponhamos que nosso
problema original e resolver o problema de contorno tridimensional
u +f(u, x, y, z) = 0, (5.3.1)
onde e o operador Laplaciano, u e a fun c ao inc ognita denida em [0, 1]
[0, 1] [0, 1] e seus valores no contorno do cubo s ao conhecidos. A dis-
cretiza c ao por diferen cas nitas de (5.3.1) dene um sistema n ao linear de
(N1)
3
equa c oes e inc ognitas, onde N = 1/h e h e o passo da discretiza c ao.
Assim, se h = 0.01, teremos 970299 vari aveis e componentes do sistema. A
matriz Jacobiana deste sistema e esparsa. Entretanto, se adotamos a ordem
usual lexicogr aca para as inc ognitas, seus elementos n ao nulos ocupam as
seguintes posi c oes:
(a) As tres diagonais principais;
(b) Duas subdiagonais a dist ancia N da diagonal principal;
(c) Duas subdiagonais a dist ancia N
2
da diagonal principal.
Devido a essa estrutura, a fatora c ao LU da matriz ocupa O(N
3
) posi c oes
de mem oria, o que e intoler avel, tanto do ponto de vista de espa co quanto
do n umero de opera c oes que e necess ario para sua manipula c ao. Logo, o
metodo de Newton n ao pode ser utilizado, e os metodos quase-Newton com
mem oria limitada s ao for cados a come car com uma matriz B
0
bastante afas-
tada da Jacobiana verdadeira.
Os metodos de Newton truncados representam um ponto de vista radical-
mente diferente. Em vez de resolver (5.1.3), como Newton faz, ou substi-
tuir esse sistema por outro mais manej avel, no estilo quase-Newton, esses
metodos abordam a resolu c ao do sistema linear newtoniano atraves de metodos
iterativos lineares que, como sabemos, s ao geralmente econ omicos em termos
de mem oria e custo computacional. Em outras palavras, para resolver
J(x
k
)s = F(x
k
) (5.3.2)
utiliza-se uma seq uencia s
0
, s
1
, s
2
, . . ., produzida por um metodo iterativo
linear, onde os sucessivos iterandos s
AO-LINEARES
metodo de Broyden como metodo iterativo linear deve ser implementado
com mem oria limitada, j a que, em estado puro, seu custo cresce a cada it-
era c ao.
Quando se fala de metodos iterativos lineares, a possibilidade de uma con-
vergencia muito lenta est a sempre presente. Por isso, freq uentemente sua
aplica c ao e precedida pela manipula c ao denominada precondicionamento.
Para xar ideias, o precondicionamento ` a esquerda do sistema (5.3.2) con-
siste em sua transforma c ao em um sistema equivalente
H
k
J(x
k
)s = H
k
F(x
k
) (5.3.5)
de maneira que (5.3.5) e mais f acil que (5.3.2) para o metodo iterativo linear
escolhido. A matriz H
k
e a precondicionadora de J(x
k
) e pretende-se que
H
k
J(x
k
) I. (5.3.6)
Naturalmente, a precondicionadora ideal seria J(x
k
)
1
mas, nos casos em
quest ao, essa matriz n ao pode ser calculada. Uma boa precondicionadora
deve ser, de fato, f acil de computar e manipular, objetivo, em geral, con-
itante com (5.3.6). Infelizmente, n ao e possvel fornecer receitas univer-
salmente v alidas para o precondicionamento de sistemas lineares. Ver [137],
[138].
Qualquer que seja a escolha do metodo iterativo linear para resolver (5.3.2),
deve ser decidido quando um iterando s
+F(x
k
)|. O criterio consiste em
interromper o algoritmo linear quando este resduo (em uma norma qual-
quer) e uma fra c ao
k
da norma do termo independente F(x
k
) (que, por
outro lado, nada mais e do que o resduo para s = 0). Veremos, na pr oxima
se c ao, que existem raz oes te oricas para fazer
k
efetivamente dependente de
k, embora, na pr atica a fra c ao m agica
k
0.1 seja geralmente preferida.
Resumindo, dada uma seq uencia
k
(0, 1), o criterio de parada introduzido
em [48] produz incrementos que satisfazem
|J(x
k
)s
k
+F(x
k
)|
k
|F(x
k
)|, (5.3.7)
5.4. CONVERG
ENCIA LOCAL 83
onde | | e uma norma qualquer em IR
n
. Os metodos baseados em (5.3.7)
e x
k+1
= x
k
+ s
k
costumam ser chamados Newton-inexatos. Quando o
incremento s
k
e calculado como uma das itera c oes de um algoritmo iterativo
linear falamos de metodos de Newton truncados. Na pr oxima se c ao vere-
mos propriedades te oricas dos algoritmos para resolver sistemas n ao lineares
baseados em (5.3.7).
5.4 Convergencia local
Nas se c oes anteriores apresentamos os metodos de Newton, quase-Newton
e Newton truncados. Agora veremos resultados de convergencia local rela-
cionados com esses algoritmos. Diremos que um metodo possui convergencia
local em rela c ao a determinado tipo de solu c oes do problema considerado
se, dada uma solu c ao x
| , converge para x
. Os resultados
de convergencia local est ao quase sempre associados a resultados de ordem
de convergencia. Diremos que uma seq uencia x
k
converge linearmente
para x
| r|x
k
x
|. (5.4.1)
A convergencia de x
k
para x
| r
k
|x
k
x
| (5.4.2)
para todo k = 0, 1, 2, . . .. Pela equivalencia das normas em IR
n
podemos ver
que a convergencia superlinear de uma seq uencia e independente da norma.
Ao mesmo tempo, se x
k
x
e existem k
0
^, c > 0 e p > 0 tais que, para todo k k
0
,
|x
k+1
x
| c|x
k
x
|
p+1
, (5.4.3)
diremos que x
k
converge para x
AO-LINEARES
k, o erro |x
k
x
) = 0 e J(x
) e n ao-singular.
Para a prova da convergencia quadr atica do metodo de Newton assumimos
que existem L > 0 e p > 0 tais que, em uma vizinhan ca de x
,
|J(x) J(x
)| L|x x
|
p
(5.4.5)
onde | | e uma norma qualquer em IR
n
bem como a norma de matrizes
consistente associada em IR
nn
.
Exerccio 5.4: Usando (5.4.5), mostrar que para todo x, z ,
|F(z) F(x) J(x
|
p
, |z x
|
p
.
Exerccio 5.5: Usando (5.4.5), mostrar que para todo x ,
|F(x) J(x
)(x x
)|
L
1 +p
|x x
|
p+1
.
5.4. CONVERG
ENCIA LOCAL 85
5.4.1 O teorema das duas vizinhan cas
O objetivo desta subse c ao e mostrar que, se x
0
est a pr oximo de x
e todas
as matrizes B
k
est ao perto de J(x
) s ao n ao-
singulares. No Lema 5.4.1 vamos precisar o tamanho dessa vizinhan ca. Um
resultado previo, de algebra, e o chamado Lema de Banach: dada uma norma
arbitr aria | | em IR
n
, que denota tambem a norma matricial subordinada,
se |A| < 1, ent ao I +A e n ao-singular e
1
1 +|A|
|(I +A)
1
|
1
1 |A|
.
Exerccio 5.6: Demonstrar o Lema de Banach.
Lema 5.4.1
Se B IR
nn
e tal que |B J(x
)|
1
2|J(x
)
1
|
ent ao B
1
existe e
satisfaz |B
1
| 2|J(x
)
1
|.
Prova: Seja A = BJ(x
)
1
I = [BJ(x
)]J(x
)
1
. Pela consistencia da
norma segue que
|A| = |[B J(x
)]J(x
)
1
| |[B J(x
)]| |J(x
)
1
|
1
2
< 1 ,
ou seja, estamos nas condi c oes do Lema de Banach e, ent ao BJ(x
)
1
e
n ao-singular. Logo, existe B
1
e vale [BJ(x
)
1
]
1
= J(x
)B
1
. Alem
disso,
|J(x
)B
1
|
1
1 |BJ(x
)
1
I|
2 .
Como |B
1
| = |J(x
)
1
J(x
)B
1
| |J(x
)
1
| |J(x
)B
1
|, segue que
|B
1
| 2|J(x
)
1
|. QED
86 CHAPTER 5. SISTEMAS DE EQUAC
OES N
AO-LINEARES
Lema 5.4.2 - das duas vizinhan cas.
Para cada x e B IR
nn
, denimos a fun c ao (x, B) = x B
1
F(x).
Seja r (0, 1). Existem
1
=
1
(r),
1
=
1
(r) > 0 tais que se |x
x
|
1
, |B J(x
)|
1
, a fun c ao (x, B) est a bem denida e satis-
faz |(x, B) x
| r|x x
|.
Prova: Seja
1
=
1
2|J(x
)
1
|
. Pelo Lema 5.4.1, se |B J(x
)|
1
ent ao
B
1
existe e satisfaz
|B
1
| 2|J(x
)
1
| . (5.4.6)
Assim, (x, B) est a bem denida se x e
1
1
.
Agora
|(x, B) x
| A
1
+A
2
(5.4.7)
onde
A
1
= |x x
B
1
J(x
)(x x
)| e A
2
= |B
1
[F(x) J(x
)(x x
)]| .
Por (5.4.6), temos que
A
1
= |x x
B
1
J(x
)(x x
) B
1
B(x x
) +B
1
B(x x
)|
= |x x
B
1
B(x x
) +B
1
[B J(x
)](x x
)|
= |B
1
[B J(x
)](x x
)|
|B
1
| |B J(x
)| |x x
|
2|J(x
)
1
|
1
|x x
| . (5.4.8)
Pela diferenciabilidade de F e por (5.4.6), temos:
A
2
|B
1
| |F(x) J(x
)(x x
)| 2|J(x
)
1
| (x) (5.4.9)
onde lim
xx
(x)
|x x
|
= 0 .
Seja
1
tal que
2
_
1
+ sup
xx
1
_
(x)
|x x
|
_
_
r
|J(x
)
1
|
. (5.4.10)
5.4. CONVERG
ENCIA LOCAL 87
Ent ao, para |B J(x
)|
1
e |x x
|
1
, por (5.4.7)(5.4.10) temos
|(x, B) x
| 2|J(x
)
1
|
1
|x x
| + 2|J(x
)
1
| (x)
= 2|J(x
)
1
|
_
1
+
(x)
|x x
|
_
|x x
|
r|x x
| . QED
Teorema 5.4.3 - das duas vizinhan cas.
Seja r (0, 1). Existem = (r) e = (r) tais que, se |x
0
x
| e
|B
k
J(x
e |x
k+1
x
| r|x
k
x
| para
todo k.
Prova: Considerando a fun c ao (x, B) = x B
1
F(x), temos x
k+1
=
(x
k
, B
k
), k = 0, 1, 2, . . . . A prova segue por um argumento de indu c ao e
pelo Lema 5.4.2. QED
Uma conseq uencia imediata do Teorema das duas vizinhan cas e a con-
vergencia local linear do metodo de Newton estacion ario. Com efeito, dado
r (0, 1), pela continuidade das derivadas de F, existe
2
tal que |J(x
0
)
J(x
|
2
. Tomemos, ent ao como o
mnimo entre (r) e
2
, onde (r) e (r) s ao os denidos no Teorema das
duas vizinhan cas. Ent ao, se |x
0
x
| teremos |J(x
0
) J(x
)| (r)
e, portanto, |B
k
J(x
.
5.4.2 Convergencia quadratica de Newton
A aplica c ao do Teorema das duas vizinhan cas ao metodo de Newton e bas-
tante natural. No entanto, a ultima observa c ao da subse c ao anterior, per-
mite vislumbrar que, para este metodo, resultados mais fortes s ao possveis.
Aqui vamos usar a condi c ao (5.4.5) para provar que a ordem de convergencia
de Newton e, pelo menos p + 1.
E usual que (5.4.5) seja v alida com p = 1,
por isso chamaremos essa propriedade de convergencia quadr atica. As
88 CHAPTER 5. SISTEMAS DE EQUAC
OES N
AO-LINEARES
situa c oes em que (5.4.5) vale para algum p (0, 1) mas n ao para p = 1 s ao
um tanto patol ogicas, e n ao tem maior import ancia pr atica. No entanto, e
interessante reetir sobre o caso em que (5.4.5) e satisfeita para algum p > 1.
Por exemplo, se p = 2, essa condi c ao signica que as derivadas segundas de
F existem e s ao nulas em x
,
ou seja, o metodo se comportar a como um metodo direto, que e exatamente
o que se espera dele quando aplicado a uma fun c ao linear.
Teorema 5.4.4 - Convergencia quadr atica de Newton.
Suponhamos que F, L, p satisfazem (5.4.5). Ent ao existem , > 0 tais que
para todo x
0
vericando |x
0
x
e satisfaz
|x
k+1
x
| |x
k
x
|
p+1
.
Prova: Escolhemos um r arbitr ario entre 0 e 1, digamos, r = 0.5. Seja
1
=
1
(r), denido pelo Lema das duas vizinhan cas. Pela continuidade de
J(x), existe
2
> 0 tal que, sempre que |xx
|
2
, temos |J(x)J(x
)|
1
(r). Tomamos
= mnimo
1
,
2
,
logo |J(x
0
) J(x
)|
1
(r). Ent ao, pelo Lema das duas vizinhan cas,
|x
1
x
| r|x
0
x
| <
1
.
Portanto, |J(x
1
) J(x
)|
1
(r) e o raciocnio pode ser repetido, induti-
vamente, para provar que x
k
converge para x
| = |x
k
x
J(x
k
)
1
F(x
k
)|
= |J(x
k
)
1
(F(x
k
) J(x
k
)(x
x
k
))|
2|J(x
)
1
| |F(x
k
) J(x
k
)(x
k
x
)|.
5.4. CONVERG
ENCIA LOCAL 89
Mas, por (5.4.5) e pelo resultado do exerccio 5.5,
|F(x
k
) J(x
k
)(x
k
x
)| [F(x
k
) J(x
)(x
k
x
)[ +L|x
k
x
|
p+1
2L|x
k
x
|
p+1
.
Portanto,
|x
k+1
x
| 4|J(x
)
1
|L|x
k
x
|
p+1
,
o que completa a prova. QED
Sutilezas maiores que as do Teorema 5.4.4 s ao possveis. De fato, o leitor
poder a vericar que, mesmo sem supor a condi c ao (5.4.5), mas usando a
diferenciabilidade de F, a convergencia de Newton e superlinear.
5.4.3 Convergencia dos metodos quase-Newton
O Teorema das duas vizinhan cas e um elemento essencial na teoria de con-
vergencia dos metodos quase-Newton. Com efeito, ele nos diz que em um
metodo desse tipo, se o ponto inicial est a sucientemente perto da solu c ao
e todas as matrizes B
k
est ao pr oximas de J(x
) possa ser
maior que |B
k
J(x
)| |B
k
J(x
)| +c|x
k
x
| (5.4.11)
90 CHAPTER 5. SISTEMAS DE EQUAC
OES N
AO-LINEARES
para algum c > 0. A desigualdade (5.4.11) estabelece que a deteriora c ao de
B
k+1
em rela c ao a B
k
e de ordem n ao maior que o erro na itera c ao k. O
metodo de Broyden, do qual falamos na Se c ao 5.3, satisfaz uma propriedade
desse tipo. Para mostrar como ela contribui para n ao corromper a con-
vergencia de um metodo quase-Newton, vamos provar o seguinte teorema.
Teorema 5.4.5
Consideramos o metodo quase-Newton denido por x
k+1
= x
k
B
1
k
F(x
k
),
onde as matrizes B
k
satisfazem (5.4.11). Seja r (0, 1). Ent ao, existem
, > 0 tais que, se |x
0
x
| e |B
0
J(x
e satisfaz |x
k+1
x
| r|x
k
x
| para todo k.
Prova: Sejam
1
= (r) e
1
= (r) os denidos no Teorema das duas
vizinhan cas. Sejam
1
e
1
tais que
+
c
1 r
1
. (5.4.12)
Vamos provar por indu c ao que
|x
k
x
| r|x
k1
x
| r
k
e
|B
k
J(x
)| +c(1 +r +. . . +r
k1
).
O primeiro passo e obvio. Vejamos o passo indutivo. Por hip otese indutiva
temos:
|B
k
J(x
)| +c(1 +r +. . . +r
k1
)
+
c
1 r
1
.
Como |x
k
x
| r
k
, o Teorema das duas vizinhan cas implica
|x
k+1
x
| r|x
k
x
| r
k+1
.
Agora, por (5.4.11),
|B
k+1
J(x
)| |B
k
J(x
)| +c|x
k
x
|
+c(1 +r +. . . +r
k1
) +cr
k
,
de onde a tese segue-se trivialmente. QED
5.4. CONVERG
ENCIA LOCAL 91
A maioria dos resultados de deteriora c ao limitada para metodos quase-
Newton s ao obtidos usando propriedades geometricas das f ormulas de atual-
iza c ao das B
k
s. O exemplo mais claro e fornecido pelo metodo de Broyden.
Como vimos no Exerccio 5.3, nesse algoritmo, B
k+1
e a proje c ao segundo
a norma de Frobenius de B
k
na variedade am das matrizes que satisfazem
a equa c ao secante Bs
k
= y
k
. Se J(x
) e o
princpio (5.4.11) seria satisfeito com c = 0. Infelizmente, em geral, J(x
)
n ao e uma das matrizes que satisfazem a equa c ao secante da itera c ao k. No
entanto, se denimos
B
k
=
_
1
0
J(x
k
+t(x
k+1
x
k
))dt, (5.4.13)
podemos vericar, com o teorema fundamental do c alculo, que
B
k
s
k
= y
k
.
Portanto,
|B
k+1
B
k
| |B
k
B
k
|.
Assim,
|B
k+1
J(x
)| |B
k+1
B
k
| +|
B
k
J(x
)|
|B
k
B
k
| +|
B
k
J(x
)|
|B
k
J(x
)| + 2|
B
k
J(x
)|. (5.4.14)
Por (5.4.13), e usando (5.4.5), podemos vericar que |
B
k
J(x
)| = O(|x
k
B
k
|
2
|B
k+1
B
k
|
2
. (5.4.16)
Portanto,
|B
k+1
B
k
|
2
= |B
k
J(x
)|
2
|B
k+1
J(x
)|
2
+O(|x
k
x
|). (5.4.17)
92 CHAPTER 5. SISTEMAS DE EQUAC
OES N
AO-LINEARES
Assim, supondo que o princpio de deteriora c ao limitada j a permitiu provar
a convergencia com taxa linear r da seq uencia x
k
, e somando todas as
igualdades (5.4.17),
k=0
|B
k+1
B
k
|
2
|B
0
J(x
)|
2
+
|x
0
x
|
1 r
, (5.4.18)
logo, a serie da esquerda em (5.4.18) converge e, portanto, (5.4.15) se verica.
Por enquanto nos limitamos a mostrar que os metodos quase-Newton com
deteriora c ao limitada n ao s ao piores que o mais simples dos metodos quase-
Newton, onde B
k
n ao muda nunca e, portanto, a deteriora c ao e nula. Se
os metodos secantes n ao pudessem oferecer mais do que isso, nunca teriam
sido populares. De fato, veremos agora que, via de regra, os metodos se-
cantes n ao apenas convergem com a taxa linear r de que fala o teorema das
duas vizinhan cas mas, tambem, s ao superlineares. A ferramenta fundamen-
tal para essa prova e o seguinte teorema, cujo resultado e conhecido como
condi c ao Dennis-More.
Teorema 5.4.6 - Condi c ao Dennis-More.
Suponhamos que F satisfaz as hip oteses gerais, incluindo (5.4.5), a seq uencia
gerada por
x
k+1
= x
k
B
1
k
F(x
k
)
est a bem denida, converge a x
, e satisfaz
lim
k
|[B
k
J(x
)]s
k
|
|s
k
|
= 0 . (5.4.19)
Ent ao a convergencia e superlinear.
Antes de provar a condi c ao Dennis-More vamos reetir sobre seu signi-
cado. Uma primeira observa c ao e que o metodo de Newton claramente
satisfaz (5.4.19) e que, ainda mais, qualquer seq uencia de matrizes B
k
tal
que B
k
J(x
ENCIA LOCAL 93
essas condi c oes pode ser superlinearmente convergente, mesmo com as ma-
trizes B
k
convergindo a algo diferente da Jacobiana na solu c ao. No Teorema
5.4.6 apresentamos a condi c ao Dennis-More apenas como uma condi c ao su-
ciente. Na verdade, o resultado e bem mais elegante (ver [52], [54]): a
condi c ao (5.4.19) e tambem necess aria para a convergencia superlinear dos
metodos quase-Newton e o fato de que x
quando J(x
) e n ao-singular:
Lema 5.4.7
Existem , c
1
, c
2
> 0 tais que, sempre que |x x
| ,
c
1
|x x
| |F(x)| c
2
|x x
|.
Prova: Pela diferenciabilidade de F,
lim
xx
|F(x) J(x
)(x x
)|
|x x
|
= 0.
Mas
|x x
| = |J(x
)
1
J(x
)(x x
)| |J(x
)
1
||J(x
)(x x
)|,
portanto
lim
xx
|F(x) J(x
)(x x
)|
|J(x
)
1
||J(x
)(x x
)|
= 0.
Logo,
lim
xx
|F(x) J(x
)(x x
)|
|J(x
)(x x
)|
= 0.
Mas [ |F(x)||J(x
)(xx
)| [ |F(x) J(x
)(xx
| ,
1
2
|F(x)| |J(x
)(x x
)|
|J(x
)(x x
)|
1
2
,
ou seja,
1
2
|J(x
)(x x
)| |F(x)| |J(x
)(x x
)|
1
2
|J(x
)(x x
)|,
94 CHAPTER 5. SISTEMAS DE EQUAC
OES N
AO-LINEARES
ou ainda,
1
2
|J(x
)(x x
)| |F(x)|
3
2
|J(x
)(x x
)|. (5.4.20)
Mas, |J(x
)(x x
)| |J(x
)||x x
| e
|x x
| = |J(x
)
1
J(x
)(x x
)| |J(x
)
1
||J(x
)(x x
)|,
portanto a tese do Lema segue de (5.4.20), com c
1
= 1/(2|J(x
)|
1
) e
c
2
=
3
2
|J(x
)|. QED
Prova do Teorema Dennis-More: Por (5.4.19), temos:
[B
k
J(x
)](x
k+1
x
k
) = F(x
k
) J(x
)(x
k+1
x
k
)
= F(x
k+1
) F(x
k
) J(x
)(x
k+1
x
k
) F(x
k+1
).
Agora, pelo resultado do Exerccio 5.4,
|F(x
k+1
)F(x
k
)J(x
)(x
k+1
x
k
)| L|x
k+1
x
k
| max|x
k
x
|
p
, |x
k+1
x
|
p
.
Portanto, pela convergencia de x
k
e pela condi c ao (5.4.19),
lim
k
|F(x
k+1
)|
|x
k+1
x
k
|
= 0 . (5.4.21)
Agora, |x
k+1
x
k
| |x
k+1
x
| + |x
k
x
|. Portanto, por
(5.4.21),
lim
k
|x
k+1
x
|
|x
k
x
| +|x
k+1
x
|
= 0, (5.4.22)
e a convergencia superlinear segue de (5.4.22) ap os breve manipula c ao algebrica.
QED
Quando, para um metodo secante, pode ser provada uma propriedade de de-
teriora c ao limitada e a forma de denir B
k
permite demonstrar tambem
que |B
k+1
B
k
| 0, a convergencia superlinear do metodo resulta do
Teorema Dennis-More. Formalizaremos isso no seguinte teorema.
Teorema 5.4.8
Suponhamos as hip oteses gerais desta se c ao e, tambem, a condi c ao (5.4.5).
Suponhamos que o metodo quase-Newton denido por x
k+1
= x
k
B
1
k
F(x
k
)
5.4. CONVERG
ENCIA LOCAL 95
tem as propriedades (5.4.11) e (5.4.15) e que a equa c ao secante () e satis-
feita para todo k. Ent ao, existem , > 0 tais que, se |x
0
x
| e
|B
0
J(x
)| , a seq uencia x
k
est a bem denida, e converge superlin-
earmente para x
.
Prova: A boa deni c ao e convergencia resultam do Teorema 5.4.3. Para
provar a superlinearidade vamos mostrar que a condi c ao Dennis-More e sat-
isfeita. Pelo resultado do Exerccio 5.4, temos que
|y
k
J(x
)s
k
| L|s
k
| max |x
k
x
|
p
, |x
k+1
x
|
p
. (5.4.23)
Mas, pela condi c ao secante, B
k+1
s
k
= y
k
. Logo, por (5.4.23) e a con-
vergencia de x
k
,
lim
k
|[B
k+1
J(x
)]s
k
|
|s
k
|
= 0. (5.4.24)
Claramente, a condi c ao Dennis-More (5.4.19) pode ser deduzida de (5.4.24)
e (5.4.15). Portanto, a convergencia e superlinear. QED
5.4.4 Convergencia dos Newton inexatos
Como dissemos na Se c ao 5.3, chamamos metodos de Newton inexatos ` aqueles
baseados na condi c ao (5.3.7). Newton truncados ser ao aqueles metodos nos
quais se utiliza um metodo iterativo linear para resolver, aproximadamente,
o sistema (5.3.2). Freq uentemente, as duas express oes s ao utilizadas como
sin onimos. Entretanto, pode ser que um metodo de Newton truncado uti-
lize um criterio de parada diferente de (5.3.7), e tambem e possvel que
o incremento s
k
que satisfaz (5.3.7) n ao seja originado de um processo it-
erativo linear. Por isso, e conveniente manter as duas denomina c oes com
signicados diferenciados.
No resultado principal desta subse c ao, provaremos que os metodos de New-
ton inexatos s ao localmente convergentes com taxa linear, em determinada
norma, se o valor
k
se mantem xo ao longo de todo o processo. Se
k
0,
veremos que a convergencia e superlinear.
Teorema 5.4.9 - Dembo - Eisenstat - Steihaug.
(a) Se
k
max
< r < 1, existe > 0 tal que se |x
0
x
| , ent ao
a seq uencia x
k
gerada por um metodo de Newton inexato converge a x
.
Alem disso a convergencia e linear com taxa r:
|x
k+1
x
r|x
k
x
, (5.4.25)
96 CHAPTER 5. SISTEMAS DE EQUAC
OES N
AO-LINEARES
onde a norma | |
= |J(x
)y| .
(b) Se a seq uencia x
k
gerada por um metodo de Newton inexato converge
a x
e se
lim
k
k
= 0 , (5.4.26)
ent ao a convergencia e superlinear.
Prova: (a) Como J(x
|y| |y|
|y| (5.4.27)
onde = max|J(x
)|, |J(x
)
1
| .
Como
max
< r, existe > 0 sucientemente pequeno tal que
(1 +) [
max
(1 +) + 2] r .
Agora, escolhemos > 0 sucientemente pequeno tal que
|J(y) J(x
)| , (5.4.28)
|J(y)
1
J(x
)
1
| , (5.4.29)
|F(y) F(x
) J(x
)(y x
)| |y x
| (5.4.30)
se |y x
|
2
. A existencia de e garantida pela diferenciabilidade de
F.
Assumindo que |x
0
x
| |x
k
x
r
k
|x
0
x
2
|x
0
x
|
2
,
de tal forma que (5.4.28)(5.4.30) valem com y = x
k
. Alem disso, a k-esima
etapa de um metodo de Newton inexato e denida de tal forma que existe
s
k
satisfazendo
J(x
k
)s
k
= F(x
k
) +R
k
, onde
|R
k
|
|F(x
k
)|
k
. (5.4.31)
Ent ao,
J(x
)(x
k+1
x
) = J(x
)s
k
+J(x
)(x
k
x
)
= J(x
)J(x
k
)
1
[J(x
k
)s
k
+J(x
k
)(x
k
x
)]
= [I +J(x
)(J(x
k
)
1
J(x
)
1
)] [J(x
k
)s
k
+F(x
k
) +J(x
k
)(x
k
x
)
J(x
)(x
k
x
) F(x
k
) +F(x
) +J(x
)(x
k
x
)]
= [I +J(x
)(J(x
k
)
1
J(x
)
1
)] [R
k
+ [J(x
k
) J(x
)](x
k
x
)
[F(x
k
) F(x
) J(x
)(x
k
x
)]] .
5.4. CONVERG
ENCIA LOCAL 97
Usando a deni c ao de , (5.4.28), (5.4.29), (5.4.30) e (5.4.31), temos
|x
k+1
x
[1 +|J(x
)| |J(x
k
)
1
J(x
)
1
|] [|R
k
| +
+ |J(x
k
) J(x
)| |x
k
x
| +|F(x
k
) F(x
) J(x
)(x
k
x
)|]
(1 +)[
k
|F(x
k
)| +|x
k
x
| +|x
k
x
|] .
Como
F(x
k
) = [J(x
)(x
k
x
)] + [F(x
k
) F(x
) J(x
)(x
k
x
)] ,
de (5.4.30) segue que:
|F(x
k
)| |x
k
x
+|F(x
k
) F(x
) J(x
)(x
k
x
)|
|x
k
x
+|x
k
x
| .
Portanto, usando (5.4.27),
|x
k+1
x
(1 +)[
k
[|x
k
x
+|x
k
x
|] + 2|x
k
x
|]
(1 +)[
max
(1 +) + 2]|x
k
x
.
Logo, (5.4.25) segue pela escolha de .
Para provarmos o item (b), inicialmente, como na k-esima etapa de um
metodo de Newton inexato vale (5.4.31), (5.4.26) e equivalente a dizer que
|R
k
| = o(|F(x
k
)|). (5.4.32)
Assim, assumindo (5.4.22), analogamente ` a prova do item (a), segue que
|x
k+1
x
| [|J(x
)
1
| +|J(x
k
)
1
J(x
)
1
|] [|R
k
|
+ |J(x
k
) J(x
)| |x
k
x
| +|F(x
k
) F(x
) J(x
)(x
k
x
)|]
= [|J(x
)
1
| +o(1)] [o(|F(x
k
)|) +o(1)|x
k
x
| +o(|x
k
x
|)] .
Portanto,
|x
k+1
x
| = o(|F(x
k
)|) +o(1)|x
k
x
| +o(|x
k
x
|),
ou seja x
k
x
superlinearmente. QED
Outros criterios, alem de (5.3.7), tem sido propostos para a parada do
metodo iterativo linear nos algoritmos de Newton truncados. Ypma [205]
sugeriu o seguinte criterio baseado no erro verdadeiro do sistema linear, e
n ao no resduo:
98 CHAPTER 5. SISTEMAS DE EQUAC
OES N
AO-LINEARES
|s
k
+J(x
k
)
1
F(x
k
)|
k
|J(x
k
)
1
F(x
k
)|. (5.4.33)
O criterio (5.4.33) tem algumas vantagens te oricas sobre (5.3.7) (ver [141]).
No entanto, e mais difcil de implementar devido ` a necessidade de estimar
a solu c ao verdadeira do sistema linear.
Uma desvantagem conceitual dos criterios (5.3.7) e (5.4.33) e que, para obter
convergencia superlinear, a precis ao com que se deve resolver o sistema lin-
ear deve ser cada vez mais exigente (
k
0). Atraves do uso de precondi-
cionadores que satisfazem a equa c ao secante, esta diculdade e contornada
em [137] e [138].
98 CHAPTER 5. SISTEMAS DE EQUAC
OES N
AO-LINEARES
Chapter 6
Minimiza cao irrestrita e
busca linear
A minimiza c ao de uma fun c ao contnua de n vari aveis, sem vnculos, e
um dos problemas cl assicos da otimiza c ao n ao linear. Existem in umeras
situa c oes da realidade que s ao modeladas dessa maneira. Quando a fun c ao
e deriv avel, a condi c ao necess aria de primeira ordem para minimizadores
estabelece que o gradiente deve se anular. Em casos muito simples, como
os tratados nos textos de c alculo multivariado, e possvel calcular manual-
mente todos os pontos crticos o que, geralmente, leva a encontrar solu c oes
globais, quando estas existem. Mas, quando o n umero de vari aveis ou a com-
plexidade da fun c ao aumentam, as manipula c oes isoladas s ao insucientes
para achar sequer pontos estacion arios.
E necess ario, ent ao, apelar para
metodos numericos, quase sempre iterativos. Os algoritmos estudados neste
captulo funcionam da seguinte maneira: dado o iterando x
k
determina-se
uma dire c ao d
k
ao longo da qual, em princpio, e possvel fazer diminuir o
valor da fun c ao objetivo. A seguir, calcula-se um comprimento de passo que
permita uma diminui c ao razo avel. O metodo de Newton, os quase-Newton,
e os chamados metodos de Newton truncados podem ser adaptados para
funcionar com este esquema.
6.1 Algoritmos gerais
Vamos considerar o problema de minimiza c ao sem restri c oes
Minimizar f(x)
x IR
n
(6.1.1)
99
100 CHAPTER 6. MINIMIZAC
AO IRRESTRITA E BUSCA LINEAR
com a hip otese inicial de que f C
1
(IR
n
).
Neste captulo consideraremos sempre que | | e a norma euclidiana, emb-
ora muitos resultados sejam independentes dessa identica c ao. Os metodos
para resolver (6.1.1) s ao iterativos. A aproxima c ao x
k+1
est a bem denida
e satisfaz f(x
k+1
) < f(x
k
) se f(x
k
) ,= 0. Para a deni c ao desses algorit-
mos, usaremos dire c oes ao longo das quais, pelo menos dando passos muito
pequenos, e possvel fazer decrescer f(x). Assim, dado x IR
n
, d IR
n
e
chamada dire c ao de descida a partir de x se existe > 0 tal que, para todo
t (0, ],
f(x +td) < f(x) .
As dire c oes que formam um angulo maior que 90 graus com o gradiente s ao
dire c oes de descida, como vemos no seguinte lema.
Lema 6.1.1
Se f(x)
T
d < 0 ent ao d e dire c ao de descida.
Prova: Como f(x)
T
d = lim
t0
f(x +td) f(x)
t
e por hip otese f(x)
T
d <
0, ent ao para todo t > 0 sucientemente pequeno, temos f(x + td) < f(x).
QED
A dire c ao d = f(x) e chamada dire c ao de m axima descida a partir de x.
Se consideramos todas as dire c oes com norma euclidiana unit aria no espa co,
e f acil ver que a derivada direcional mais negativa se realiza nessa dire c ao.
A solu c ao do problema
Minimizar
f(x) sujeita a |x x| ,
onde
f e qualquer fun c ao tal que
(0),
(t),
onde (t) = f(x
k
+td
k
) e
(t) = f(x
k
+td
k
)
T
d
k
. Se o minimizador desta
c ubica estiver no intervalo de salvaguarda [0.1t, 0.9t], adotamos t
novo
como
sendo este minimizador. Caso contr ario, t
novo
= 0.5t.
Exerccio 6.7: A estrategia descrita acima para obter um novo t ap os um
fracasso em Armijo demanda a avalia c ao extra de f(x
k
+ td
k
). Propor
uma outra estrategia, usando inicialmente uma par abola interpolante em
(0), (t) e
e ponto limite de uma seq uencia gerada pelo Algoritmo 6.1.5, ent ao
f(x
) = 0.
Prova: Denotamos s
k
= x
k+1
x
k
= td
k
para todo k ^. Seja K
1
^
tal que lim
kK
1
x
k
= x
, onde
K
1
e > 0 tais que |s
k
| para todo k K
2
.
Suponhamos inicialmente que valha (a).
(a1) Se existe K
3
K
1
, tal que s
k
= d
k
, ent ao
|f(x
)| = lim
kK
3
|f(x
k
)| lim
kK
3
|d
k
|
= lim
kK
3
|s
k
|
= 0 .
(a2) Se para todo k K
1
, k k
0
temos t < 1, ent ao, para todo k K
1
, k k
0
existe s
k
um m ultiplo de s
k
tal que | s
k
| 10|s
k
| e
f(x
k
+ s
k
) > f(x
k
) +f(x
k
)
T
s
k
.
Claramente,
lim
kK
1
| s
k
| = 0
e
f(x
k
)
T
s
k
|f(x
k
)| | s
k
| (6.1.6)
para todo k K
1
, k k
0
.
Seja v um ponto de acumula c ao de
s
k
| s
k
|
. Ent ao |v| = 1 e existe K
4
K
1
tal que lim
kK
4
s
k
| s
k
|
= v.
Portanto,
f(x
)
T
v = lim
kK
4
f(x
k
)
T
v = lim
kK
4
f(x
k
)
T
s
k
| s
k
|
e por (6.1.6) segue que
f(x
)
T
v lim
kK
4
|f(x
k
)| . (6.1.7)
106 CHAPTER 6. MINIMIZAC
AO IRRESTRITA E BUSCA LINEAR
Agora, para todo k K
4
,
f(x
k
+ s
k
) f(x
k
) = f(x
k
+
k
s
k
)
T
s
k
,
k
(0, 1).
Portanto, pelo fracasso da condi c ao de Armijo para s
k
,
f(x
k
+ s
k
)
T
s
k
> f(x
k
)
T
s
k
, para todo k K
4
.
Ou seja, para todo k K
4
,
f(x
k
+ s
k
)
T
s
k
| s
k
|
> f(x
k
)
T
s
k
| s
k
|
.
Passando ao limite para k K
4
temos:
f(x
)
T
v f(x
)
T
v
ou
(1 )f(x
)
T
v 0 .
Logo
f(x
)
T
v 0
e por (6.1.7) segue que f(x
)
T
v = 0. Se f(x
) ,= 0, novamente por
(6.1.7), para k K
4
, k sucientemente grande,
0 = f(x
)
T
v |f(x
k
)| < 0 .
Portanto, f(x
) = 0.
Suponhamos agora a validade de (b): |s
k
| para todo k K
2
. Por
Armijo,
f(x
k
+s
k
) f(x
k
) +f(x
k
)
T
s
k
f(x
k
) |f(x
k
)| |s
k
|
f(x
k
) |f(x
k
)| ,
para todo k K
2
.
Portanto,
f(x
k+1
) f(x
k
) |f(x
k
)|
ou seja,
f(x
k
) f(x
k+1
)
|f(x
k
)| .
6.2. O M
) = 0. QED
Exerccio 6.8 Suponha que, no Algoritmo 6.1.5, temos que existe uma
constante c > 0 tal que
|d
k
| c|f(x
k
)|
para todo k.
(a) Provar que se x
sempre que |x
0
x
| .
(Convergencia local.) Sugerencia: construa, alem da coroa, um conjunto de
nvel contido dentro da bola menor.
(c) Mostrar que (b) n ao se cumpre se, em vez de minimizador local, x
L
T
e calcular d
k
resolvendo
Lz = g(x
k
) e
D
L
T
d
k
= z .
(5) Se g(x
k
)
T
d
k
> |g(x
k
)| |d
k
|, fazer max 2, 10 e repetir
o Passo 4, como se tivesse havido fracasso na fatora c ao de Cholesky.
(6) Se |d
k
| < |g(x
k
)|, corrigir:
d
k
|g(x
k
)|
|d
k
|
d
k
.
(7) Obter t por backtracking de modo a satisfazer
f(x
k
+td
k
) f(x
k
) +tg(x
k
)
T
d
k
,
denir
x
k+1
= x
k
+td
k
e voltar para (1).
Quando a Hessiana
2
f(x
k
) e denida positiva, automaticamente teremos
que uma condi c ao de tipo (6.1.5) se verica com igual ao recproco do
n umero de condi c ao de
2
f(x
k
). Ao mesmo tempo, uma condi c ao de tipo
(6.1.4) vale com = 1/|
2
f(x
k
)|. Logo, se e s ao escolhidos suciente-
mente pequenos, as condi c oes (6.1.5) e (6.1.4) ser ao satisfeitas e passaremos
diretamente ao Passo 7 com d
k
= [
2
f(x
k
)]
1
g(x
k
). Portanto, quase sem-
pre, essa ser a a dire c ao de busca no caso denido positivo. Se a Hessiana
6.2. O M
2
f(x
k
)d +g(x
k
)
T
d
sujeita a |d| ,
onde = | [
2
f(x
k
) + I]
1
g(x
k
)|. Ou seja, entre todas as dire c oes
possveis cujo comprimento e menor ou igual a |d
k
|, em d
k
, a aproxima c ao
quadr atica de segunda ordem de f toma o valor mnimo .
Exerccio 6.9: Viabilizar o Passo 4 do Algoritmo 6.2.1, propondo escolhas
para que explorem o conhecimento de
2
f(x
k
) (por exemplo, usando os
discos de Gerschgorin).
Exerccio 6.10: Mostrar que as corre c oes propostas nos passos (5) e (6)
do Algoritmo 6.2.1 s ao satisfat orias. Interpret a-las geometricamente. Expor
exemplos numericos.
Exerccio 6.11: Inventar o metodo do gradiente, onde d
k
g(x
k
), e
outros metodos globais. Discutir possveis propriedades.
Vimos acima que, quase sempre, se a Hessiana e denida positiva, a dire c ao
produzida pelo Algoritmo 6.2.1 coincidir a com o passo que seria calculado
pelo metodo de Newton local aplicado a g(x) = 0. No entanto, isso n ao
signica que esse passo ser a aceito, j a que a condi c ao de Armijo poderia n ao
se cumprir, obrigando a uma ou mais redu c oes de t. Agora, como o metodo
de Newton local, ou puro, tem convergencia muito r apida na proximidade de
solu c oes boas, e desej avel que, quando x
k
est a perto de uma dessas solu c oes,
a condi c ao de Armijo se satisfa ca, caso contr ario estaramos rejeitando in-
crementos essencialmente bons. Felizmente, o metodo de Newton satisfaz
110 CHAPTER 6. MINIMIZAC
AO IRRESTRITA E BUSCA LINEAR
esse requisito, como veremos no seguinte teorema. Usaremos, como hip otese,
que f C
3
(IR
n
) (na realidade, hip oteses mais fracas s ao sucientes) para
podermos utilizar, de maneira bastante forte, uma f ormula de Taylor com
resduo de segunda ordem.
Teorema 6.2.2
Seja x
k
gerada pelo Algoritmo 6.2.1 com (0, 1), x
um ponto limite
de x
k
tal que f(x
) = 0 e
2
f(x
| , ent ao
f(x
k
+d
k
) f(x
k
) +g(x
k
)
T
d
k
, (6.2.1)
com d
k
=
2
f(x
k
)
1
g(x
k
) e (0,
1
2
).
Prova: Sabemos que x
) e g(x) ,= 0
sempre que 0 < |x x
|
0
. Vejamos primeiro que
lim
k
x
k
= x
, (6.2.2)
ou seja, x
|
1
. Portanto, quando |x
k
x
1
, temos |B
1
k
| M e
|x
k+1
x
k
| |d
k
| |B
1
k
||g(x
k
)| M|g(x
k
)|. (6.2.3)
Portanto, pela continuidade de g(x), existe
2
1
2
tal que
|x
k+1
x
k
|
1
2
sempre que |x
k
x
|
2
. (6.2.4)
Agora, f e contnua na coroa
2
|x x
|
1
. Portanto, atinge um
valor mnimo m em algum ponto dessa regi ao. Pela suposi c ao feita sobre
0
, temos que m > f(x
). Denimos
V = x IR
n
[ |x x
| <
2
e f(x) < m. (6.2.5)
O conjunto V e uma vizinhan ca aberta de x
, portanto, como x
e um ponto
limite de x
k
, existem innitos ndices k para os quais x
k
V . Se k
0
e um
desses ndices, ent ao, por (6.2.4),
|x
k
0
+1
x
| |x
k
0
x
| +|x
k
0
+1
x
k
0
|
2
+
1
2
1
. (6.2.6)
6.2. O M
, que podemos
analisar por separado,
f(x
k
0
+1
) < f(x
k
0
) < m. (6.2.7)
Logo, pela deni c ao de m e pelas desigualdades (6.2.6) e (6.2.7), x
k
0
+1
est a na bola de raio
1
mas n ao na coroa denida por
1
e
2
. Ou seja,
|x
k
0
+1
x
| <
2
. Portanto, por (6.2.7) e (6.2.5), x
k
0
+1
V . Dessa
maneira, o raciocnio indutivo usual nos conduz ` a conclus ao de que x
k
V
para todo k k
0
. Mas, pela suposi c ao inicial feita sobre
0
, o unico possvel
ponto limite da seq uencia na bola |x x
|
2
e o pr oprio x
. Portanto,
x
k
converge para x
2
f(x
k
)d
k
+r
2
(d
k
) (6.2.8)
onde lim
d
k
0
r
2
(d
k
)
|d
k
|
2
= 0.
Como
2
f(x
k
)d
k
= g(x
k
), substituindo em (6.2.8) temos:
f(x
k
+d
k
) = f(x
k
)
1
2
(d
k
)
T
2
f(x
k
)d
k
+r
2
(d
k
).
Suponhamos, por absurdo, que existe um conjunto innito de ndices K
1
tal
que, para todo k K
1
,
f(x
k
+d
k
) > f(x
k
) +g(x
k
)
T
d
k
= f(x
k
) (d
k
)
T
2
f(x
k
)d
k
.
Ent ao
f(x
k
)
1
2
(d
k
)
T
2
f(x
k
)d
k
+r
2
(d
k
) > f(x
k
) (d
k
)
T
2
f(x
k
)d
k
.
Ou seja,
r
2
(d
k
) >
_
1
2
_
(d
k
)
T
2
f(x
k
)d
k
.
Logo,
r
2
(d
k
)
|d
k
|
2
>
_
1
2
_
(d
k
)
T
2
f(x
k
)d
k
(d
k
)
T
d
k
_
1
2
_
1
(k) (6.2.9)
onde
1
(k) e o menor autovalor de
2
f(x
k
).
112 CHAPTER 6. MINIMIZAC
AO IRRESTRITA E BUSCA LINEAR
Quando x
k
x
, d
k
0 e como os autovalores de uma matriz s ao fun c oes
contnuas das componentes desta matriz, temos que
1
(k) converge a
1
, o
menor autovalor de
2
f(x
) > 0, <
1/|
2
f(x
2
f(x
), ent ao x
k
converge para x
e existe k
0
^ tal que para
todo k k
0
, t = 1.
(c) No caso (b), a convergencia e quadr atica.
Exerccio 6.13: Demonstrar o Teorema 6.2.3.
6.3 Metodos quase-Newton
Vimos que a implementa c ao do metodo de Newton para minimizar fun c oes
exige a resolu c ao, em geral via fatora c ao de Cholesky, do sistema linear
2
f(x
k
)d
k
= g(x
k
) (6.3.1)
6.3. M
i=1
f
i
(x)
2
, (6.3.2)
com F : IR
n
IR
m
, J(x) = F
(x) IR
mn
. Nesse caso,
f(x) = J(x)
T
F(x), e
2
f(x) = J(x)
T
J(x) +
m
i=1
f
i
(x)
2
f
i
(x).
Sem considerar possvel esparsidade, o c alculo do gradiente envolve pelo
menos O(mn) opera c oes. Mas o c alculo da Hessiana precisa O(mn
2
) produ-
tos apenas para calcular J(x)
T
J(x), ou seja, sem contar a somat oria onde
aparecem as Hessianas das f
i
que, freq uentemente, e mais complicada. Logo,
se m e grande, a diferen ca de custo entre uma itera c ao O(n
2
) e a itera c ao
newtoniana pode ser signicativa.
No metodo de Newton globalizado com buscas lineares, introduzido na Se c ao
2, a maioria das itera c oes tem a forma x
k+1
= x
k
t
k
2
f(x
k
)
1
g(x
k
). Como
esse metodo tem boas propriedades de convergencia local, e natural que os
metodos quase-Newton que pretendemos denir tentem se parecer com ele
tanto quanto possvel, porem, barateando o custo. Assim, a maioria das
itera c oes quase-Newton ser a da forma
x
k+1
= x
k
t
k
B
1
k
g(x
k
). (6.3.3)
A ideia e tentar que as matrizes B
k
sejam aproxima c oes razo aveis das Hes-
sianas. Os metodos secantes conseguem, geralmente, aproxima c oes satis-
fat orias exigindo que as B
k
s satisfa cam a equa c ao secante, cujo signi-
cado geometrico vimos no Captulo 5 e que, no caso de minimiza c ao sem
114 CHAPTER 6. MINIMIZAC
AO IRRESTRITA E BUSCA LINEAR
restri c oes, toma a forma
B
k+1
s
k
= y
k
onde s
k
= x
k+1
x
k
e y
k
= g(x
k+1
) g(x
k
). (6.3.4)
Uma condi c ao para que um metodo secante tenha baixo custo e que seja
possvel obter B
1
k+1
(ou uma fatora c ao de B
k
) facilmente a partir de B
k
,
s
k
e y
k
. Facilmente signica, via de regra, com O(n
2
) opera c oes. Quase
sempre e mais c omodo formular os metodos quase-Newton na forma
x
k+1
= x
k
t
k
H
k
g(x
k
), (6.3.5)
com a matriz H
k
de (6.3.5) correspondendo a B
1
k
de (6.3.3). Dessa maneira,
as H
k
podem ser interpretadas como aproxima c oes das inversas das Hes-
sianas e a equa c ao secante toma a forma
H
k+1
y
k
= s
k
. (6.3.6)
Como no caso do metodo de Newton, a globaliza c ao dos metodos quase-
Newton ser a um caso particular do Algoritmo 6.1.6 com as dire c oes d
k
cal-
culadas como H
k
g(x
k
) (ou B
1
k
g(x
k
)).
Algoritmo 6.3.1 - Secante globalizado.
Sejam (0, 1), > 0, (0, 1).
Dados x
k
, B
k
( ou H
k
) e g
k
= f(x
k
) ,= 0,
(1) Resolver
B
k
d
k
= g
k
(ou d
k
= H
k
g
k
) .
(2) Testar as condi c oes
|d
k
| |g
k
| e g
T
k
d
k
|g
k
| |d
k
|,
corrigindo d
k
se necess ario.
(3) Fazer backtracking ate que
f(x
k
+td
k
) f(x
k
) +tg
T
k
d
k
.
(4) Denir x
k+1
= x
k
+td
k
, s
k
= x
k+1
x
k
, y
k
= g
k+1
g
k
e escolher
B
k+1
tal que B
k+1
s
k
= y
k
(ou H
k+1
tal que H
k+1
y
k
= s
k
).
6.3. M
k
+ B
k
e como B
k+1
s
k
= y
k
, segue que
(B
k
+ B
k
+ B
k
)s
k
= y
k
ou seja,
B
k
s
k
+ B
k
s
k
= y
k
B
k
s
k
(6.3.7)
Existem muitas maneiras da equa c ao (6.3.7) ser satisfeita. Por exemplo,
se B
k
s
k
= y
k
e B
k
s
k
= B
k
s
k
, e impomos que B
k
, B
k
e B
k
sejam
simetricas, temos a seguinte atualiza c ao:
B
k
=
y
k
y
T
k
y
T
k
s
k
e B
k
=
B
k
s
k
s
T
k
B
k
s
T
k
B
k
s
k
.
Dessa maneira, obtemos a seguinte f ormula secante:
B
k+1
= B
k
+
y
k
y
T
k
y
T
k
s
k
B
k
s
k
s
T
k
B
k
s
T
k
B
k
s
k
. (6.3.8)
A escolha (6.3.8) e conhecida como f ormula BFGS, descoberta independen-
temente por Broyden, Fletcher, Goldfarb e Shanno em 1970.
E a atualiza c ao
secante mais popular para minimiza c ao sem restri c oes.
116 CHAPTER 6. MINIMIZAC
AO IRRESTRITA E BUSCA LINEAR
Exerccio 6.15: Provar que, na f ormula BFGS,
B
1
k+1
= B
1
k
+
(s
k
B
1
k
y
k
)s
T
k
+s
k
(s
k
B
1
k
y
k
)
T
s
T
k
y
k
(s
k
B
1
k
y
k
)
T
y
k
s
k
s
T
k
(s
T
k
y
k
)
2
.
Tendo em vista o Exerccio 6.15, a formula c ao dual da f ormula BFGS efeti-
vamente usada e:
H
k+1
= H
k
+
(s
k
H
k
y
k
)s
T
k
+s
k
(s
k
H
k
y
k
)
T
s
T
k
y
k
(s
k
H
k
y
k
)
T
y
k
s
k
s
T
k
(s
T
k
y
k
)
2
.
(6.3.9)
Em (6.3.9) observamos que a obten c ao de H
k+1
a partir de H
k
(ou B
1
k+1
a
partir de B
1
k
) demanda apenas O(n
2
) opera c oes, como desej avamos.
Exerccio 6.16: Utilizando a mesma heurstica usada na obten c ao da
f ormula BFGS, mas trabalhando inicialmente na formula c ao dual (matrizes
H), inventar a f ormula DFP (introduzida por Davidon em 1959 e estu-
dada por Fletcher e Powell em 1963).
A f ormula BFGS e a DFP tem a propriedade de produzir, geralmente, ma-
trizes denidas positivas e, portanto, dire c oes de descida, que, freq uentemente,
n ao precisar ao corre c ao. A condi c ao suciente para t ao interessante pro-
priedade e dada no seguinte teorema.
Teorema 6.3.2
Na f ormula BFGS (6.3.8), se B
k
e simetrica denida positiva e s
T
k
y
k
> 0,
ent ao B
k+1
tambem e simetrica e denida positiva.
Prova: Seja z ,= 0, z IR
n
. Ent ao
z
T
B
k+1
z = z
T
B
k
z +
(z
T
y
k
)
2
y
T
k
s
k
(z
T
B
k
s
k
)
2
s
T
k
B
k
s
k
,
onde z
T
B
k
z > 0 e
(z
T
y
k
)
2
y
T
k
s
k
0. Agora, chamando
a = z
T
B
k
z
(z
T
B
k
s
k
)
2
s
T
k
B
k
s
k
=
s
T
k
B
k
s
k
z
T
B
k
z (z
T
B
k
s
k
)
2
s
T
k
B
k
s
k
,
temos que, pela desigualdade de Cauchy-Schwarz, que a 0.
6.3. M
g
k
) = s
T
k
g(x
k
+ td
k
) s
T
k
g(x
k
) =
(t)
(t) >
(s
k
H
k
y
k
)
T
y
k
s
k
s
T
k
(s
T
k
y
k
)
2
.
Exerccio 6.18: Uma outra f ormula secante e obtida projetando-se B
k
na variedade Bs
k
= y
k
segundo a norma de Frobenius (ver exerccio 5.3).
Determinar esta atualiza c ao, conhecida como primeiro metodo de Broyden,
mostrando que:
(a) B
k+1
= B
k
+
(y
k
B
k
s
k
)s
T
k
s
T
k
s
k
.
(b) B
1
k+1
= B
1
k
+
(s
k
B
1
k
y
k
)s
T
k
B
1
k
s
T
k
B
1
k
y
k
, ou seja,
H
k+1
= H
k
+
(s
k
H
k
y
k
)s
T
k
H
k
s
T
k
H
k
y
k
.
(c) |B
k+1
B
k
|
2
|BB
k
|
2
para toda B IR
nn
tal que Bs
k
= y
k
.
Exerccio 6.19: Para A IR
nn
, mostrar que
1
2
(A + A
T
) e a matriz
simetrica mais pr oxima de A na norma de Frobenius.
Exerccio 6.20: Seguindo a mesma ideia do primeiro metodo de Broyden
(Exerccio 6.18), mas impondo tambem simetria, encontrar a f ormula PSB
(Powell symmetric Broyden, [162]):
B
k+1
= B
k
+
(y
k
B
k
s
k
)s
T
k
+s
k
(y
k
B
k
s
k
)
T
s
T
k
s
k
(y
k
B
k
s
k
)
T
s
k
s
k
s
T
k
(s
T
k
s
k
)
2
.
Exerccio 6.21:
(a) Construir a f ormula PSB tipo H.
6.3. M
tal que
2
f(x
) > 0,
se B
k
> 0, B
k+1
dada pela f ormula PSB tambem e denida posi-
tiva.
De maneira an aloga ao que zemos para obter a f ormula BFGS, tambem
podemos determinar uma atualiza c ao secante simetrica e de posto unit ario.
Queremos B
k+1
s
k
= y
k
, onde B
k+1
= B
k
+B
k
. Ent ao, (B
k
+B
k
)s
k
= y
k
,
ou seja B
k
s
k
= y
k
B
k
s
k
. Para que haja simetria, fazemos:
B
k
=
(y
k
B
k
s
k
)(y
k
B
k
s
k
)
T
(y
k
B
k
s
k
)
T
s
k
.
Obtemos assim a f ormula chamada Atualiza c ao simetrica de posto um,
B
k+1
= B
k
+
(y
k
B
k
s
k
)(y
k
B
k
s
k
)
T
(y
k
B
k
s
k
)
T
s
k
. (6.3.10)
Exerccio 6.22: Mostrar que a formula c ao dual para a atualiza c ao simetrica
de posto um e dada por:
H
k+1
= H
k
+
(s
k
H
k
y
k
)(s
k
H
k
y
k
)
T
(s
k
H
k
y
k
)
T
y
k
.
A atualiza c ao simetrica de posto um n ao gera necessariamente matrizes
denidas positivas, e, tampouco h a garantia de que o denominador de (6.3.10)
seja diferente de zero. Isto sugere que esta atualiza c ao e propensa a sev-
era instabilidade numerica. Entretanto, os resultados pr aticos obtidos s ao
surpreendentemente bons. A descoberta de uma teoria explicativa para o
comportamento desta f ormula ainda constitui um desao. A atualiza c ao de
posto um foi reinventada v arias vezes por diversos autores e j a aparecia no
artigo pioneiro de Davidon em 1959. Um resultado muito interessante para
fun c oes quadr aticas e dado no seguinte teorema.
Teorema 6.3.4
Se f(x) =
1
2
x
T
Gx+b
T
x+c, G > 0, se a f ormula (6.3.10) est a bem denida
em todas as itera c oes, se os incrementos s ao linearmente independentes e
se o passo t 1 e usado para todo k, ent ao H
n
= G
1
, e portanto, x
n+1
e
120 CHAPTER 6. MINIMIZAC
AO IRRESTRITA E BUSCA LINEAR
a solu c ao.
Exerccio 6.23: Provar o Teorema 6.3.4 (ver, por exemplo, [122] ).
Chegamos ao ponto em que e necess ario compatibilizar os metodos quase-
Newton locais, estudados no Captulo 5, que, via de regra, tem con-
vergencia superlinear, com a globaliza c ao introduzida nos algoritmos 6.3.1
e 6.3.3. Esses algoritmos s ao casos particulares do Algoritmo 6.1.6, e, por-
tanto, s ao globalmente convergentes no sentido de que todo ponto limite de
uma seq uencia gerada por qualquer um deles deve ser estacion ario. No en-
tanto, essa propriedade global est a baseada nas salvaguardas tomadas para
que (6.1.4) e (6.1.5) sejam satisfeitas, e n ao nas caractersticas pr oprias dos
metodos secantes. Como no caso do metodo de Newton globalizado, seria
interessante que, em circunst ancias bem denidas, as itera c oes puramente
locais e as globais fossem as mesmas, para que o metodo global possa desfru-
tar da velocidade de convergencia do local. No seguinte teorema, resolvemos
parcialmente esse problema.
Teorema 6.3.5
Seja x
IR
n
tal que f(x
) = 0, f C
3
(IR
n
),
2
f(x
) > 0. Suponhamos
que x
2
f(x
)]d
k
|
|d
k
|
= 0 (condi c ao Dennis-More). Ent ao,
(a) A seq uencia x
k
converge para x
;
(b) existe > 0 tal que, se |x
k
x
| ,
f(x
k
+d
k
) f(x
k
) +g
T
k
d
k
,
(c) a convergencia e superlinear.
Prova: Pela hip otese de limita c ao uniforme de |B
1
k
| (ou |H
k
|) a con-
vergencia de x
k
para x
2
f(x
k
)d
k
+r
2
(d
k
) (6.3.11)
onde lim
d
k
0
r
2
(d
k
)
|d
k
|
2
= 0.
Como B
k
d
k
= g
k
, segue que g
T
k
d
k
= d
T
k
B
k
d
k
e, substituindo em (6.3.11)
temos:
f(x
k
+d
k
) = f(x
k
) d
T
k
B
k
d
k
+
1
2
d
T
k
2
f(x
k
)d
k
+r
2
(d
k
) . (6.3.12)
Suponhamos por absurdo, como no Teorema (6.2.9), que existe um conjunto
innito de ndices K
1
tal que, para todo k K
1
,
f(x
k
+d
k
) > f(x
k
) +g
T
k
d
k
= f(x
k
) d
T
k
B
k
d
k
.
Ent ao,
f(x
k
) d
T
k
[B
k
2
f(x
k
)]d
k
1
2
d
T
k
2
f(x
k
)d
k
+r
2
(d
k
)
> f(x
k
) d
T
k
[B
k
2
f(x
k
)]d
k
d
T
k
2
f(x
k
)d
k
.
Ou seja,
r
2
(d
k
)
|d
k
|
2
> (1 )
d
T
k
|d
k
|
(B
k
2
f(x
k
))
d
k
|d
k
|
+
_
1
2
_
d
T
k
2
f(x
k
)d
k
d
T
k
d
k
.
Portanto,
r
2
(d
k
)
|d
k
|
2
(1 )
d
T
k
|d
k
|
(B
k
2
f(x
k
))
d
k
|d
k
|
+
_
1
2
_
1
(k) . (6.3.13)
Tomando limites para k K
1
em ambos membros de (6.3.13), usando a
condi c ao Dennis-More da hip otese do teorema, e a continuidade dos auto-
valores, obtemos
0 = lim
kK
1
r
2
(d
k
)
|d
k
|
2
(
1
2
)
1
,
onde
1
e o menor autovalor de
2
f(x
2
f(x
k
)d
k
+g(x
k
)
T
d
k
< 0
e
|
2
f(x
k
)d
k
+f(x
k
)|
k
|g(x
k
)| .
(2) Se o c alculo de d
k
nas condi c oes acima n ao e possvel num tempo
razo avel, ou |d
k
| < |f(x
k
)|, ou f(x
k
)
T
d
k
> |f(x
k
)| |d
k
|
substituir d
k
por f(x
k
).
(3) Fazer backtracking ate que
f(x
k
+td
k
) f(x
k
) +tf(x
k
)
T
d
k
.
(4) x
k+1
= x
k
+td
k
e voltar para (1).
Exerccio 6.26: Analise as propriedades do Algoritmo 6.4.1.
Chapter 7
Regi oes de conan ca
No Captulo 5 estudamos, para certo tipo de problemas complexos, o pro-
cesso iterativo de resolu c ao que consiste em (a) montar um modelo simples
do problema original, baseado na informa c ao disponvel no ponto atual x
k
e (b) denir x
k+1
como a solu c ao deste modelo.
No Captulo 6, demos um passo adiante: consideramos a possibilidade
de que a solu c ao do modelo simples n ao fosse sucientemente boa, sendo
portanto rejeitada e substituda por uma nova aproxima c ao x
k+1
, um ponto
no segmento cujos extremos s ao x
k
e a solu c ao recusada, produzido pelo
processo de backtracking.
O backtracking, como outros procedimentos de busca linear, e muito
simples e, freq uentemente, efetivo. Entretanto, ele representa uma que-
bra da losoa baseada em (a) e (b). De fato, o primeiro ponto tentado
nos algoritmos newtonianos do Captulo 6 e o minimizador de um modelo
bastante natural baseado geralmente na f ormula de Taylor, mas os pontos
tentados depois da primeira rejei c ao n ao podem ser interpretados da mesma
maneira. Na realidade, conservando-nos no segmento [x
k
, ponto rejeitado],
estamos optando por uma delidade parcial ao primeiro subproblema, o que
n ao e f acil de se justicar pois, anal de contas, sua solu c ao foi descartada.
Os metodos de regi oes de conan ca, pelo contr ario, s ao radicaliza c oes do
esquema (a)(b). Neles, quando o minimizador do primeiro modelo e recu-
sado, a op c ao escolhida e modicar o subproblema diminuindo seu domnio
de deni c ao e calcular a pr oxima tentativa como a solu c ao do novo subprob-
lema. Assim, o segmento determinado pela primeira rejei c ao e imediata-
mente abandonado, com um aumento obvio no custo, j a que esse processo e
mais caro.
Contrariamente aos metodos com busca linear, os algoritmos de regi oes
125
126 CHAPTER 7. REGI
OES DE CONFIANC A
de conan ca se adaptam com bastante naturalidade a diversos problemas
com restri c oes, como veremos no contexto deste captulo.
7.1 Algoritmo geral
Consideramos o problema generico de otimiza c ao:
Minimizar f(x)
x ,
(7.1.1)
onde e um subconjunto arbitr ario de IR
n
. A ideia b asica e, a cada itera c ao,
construir uma aproxima c ao quadr atica para a fun c ao objetivo em torno do
ponto atual x
k
:
f(x)
k
(x) f(x
k
) +g(x
k
)
T
(x x
k
) +
1
2
(x x
k
)
T
B
k
(x x
k
) (7.1.2)
onde g(x
k
) = f(x
k
) e B
k
IR
nn
e simetrica.
Como o modelo quadr atico (7.1.2) deixa de ser representativo ` a medida
que x se afasta de x
k
, podemos conar em aproximar f(x) por
k
(x) numa
vizinhan ca de x
k
, ou seja, no conjunto:
x [ |x x
k
| , (7.1.3)
onde > 0 e | | e uma norma qualquer em IR
n
.
Dessa forma, o minimizador de
k
na regi ao (7.1.3) seria uma boa aprox-
ima c ao para o minimizador de f nesta mesma regi ao. No entanto, se o valor
de f no minimizador de
k
n ao e sucientemente menor que f(x
k
) reduzimos
o raio e denimos um novo subproblema com o domnio menor.
O algoritmo conceitual a seguir sistematiza essas ideias.
Algoritmo 7.1.1 - Regi oes de Conan ca.
Fixar
min
> 0, (0, 1), x
0
dado.
(1) Escolher
min
e B
k
simetrica.
Denir
k
(x) = f(x
k
) +g(x
k
)
T
(x x
k
) +
1
2
(x x
k
)
T
B
k
(x x
k
) .
(2) Encontrar x minimizador aproximado de
k
(x)
sujeito a x , |x x
k
| .
7.2. M
,
onde
[
0.1, e redenir, posteriormente,
k
(x)
k
(x
k
+ d) = f(x
k
) +g(x
k
)
T
d +
1
2
d
T
2
f(x
k
)d .
Ou seja,
k
(x)f(x
k
) g(x
k
)
T
d+
1
2
d
T
2
f(x
k
)d g(x
k
)
T
d+
|
2
f(x
k
)|
2
2
.
Logo, como f(x
k
) =
k
(x
k
),
k
(x)
k
(x
k
)
g(x
k
)
T
d +
|
2
f(x
k
)|
2
.
Portanto, existe > 0 tal que para ,
k
(x)
k
(x
k
)
g
T
k
d
2
= a < 0. (7.2.5)
Denimos
() =
f(x) f(x
k
)
k
(x)
k
(x
k
)
(7.2.6)
130 CHAPTER 7. REGI
OES DE CONFIANC A
e ent ao, de (7.2.5) temos
[() 1[ =
f(x) f(x
k
) [[
k
(x)
k
(x
k
)]
k
(x)
k
(x
k
)
f(x)
k
(x)
k
(x)
k
(x
k
)
f(x) f(x
k
) g(x
k
)
T
(x x
k
)
1
2
(x x
k
)
T
2
f(x
k
)(x x
k
)
k
(x)
k
(x
k
)
o(
2
)/(a) 0.
Logo, lim
0
() = 1, ou seja, existe (0, ] tal que para ,
f(x()) f(x
k
) +[
k
(x())
k
(x
k
)]. (7.2.7)
Portanto, x
k+1
est a bem denido neste caso.
Suponhamos agora que vale (7.2.3). Ent ao existe d IR
n
tal que |d| = 1
e
d
T
2
f(x
k
)d < 0. (7.2.8)
Como antes, seja x = x() minimizador global de
k
(x) sujeito a |xx
k
|
.
Assim, por (7.2.3), segue que para
1
,
k
(x)
k
(x
k
+ d) = f(x
k
) +
1
2
d
T
2
f(x
k
)d .
Ou seja,
k
(x)
k
(x
k
)
2
1
2
d
T
2
f(x
k
)d .
Portanto, existe > 0 tal que para ,
k
(x)
k
(x
k
)
2
1
4
d
T
2
f(x
k
)d = b < 0 . (7.2.9)
Portanto,
[() 1[ =
f(x)
k
(x)
k
(x) (x
k
)
o(|x x
k
|
2
)
2
0.
Logo, lim
0
() = 1. Assim, para sucientemente pequeno, (7.2.7) se
vericar a, o que completa a prova. QED
7.2. M
e
um ponto limite de x
k
, ent ao f(x
) = 0 e
2
f(x
) 0.
Prova: Seja K
1
um conjunto innito de ndices tal que
lim
kK
1
x
k
= x
.
H a duas possibilidades a serem consideradas:
inf
kK
1
k
= 0 (7.2.10)
ou
inf
kK
1
k
> 0 . (7.2.11)
Assumindo inicialmente (7.2.10), ent ao existe K
2
K
1
tal que
lim
kK
2
k
= 0 . (7.2.12)
Desta forma, existe k
2
^ tal que
k
<
min
para todo k K
3
, onde
K
3
k K
2
[ k k
2
. Mas, em cada itera c ao k tentamos inicialmente o
raio
min
. Ent ao, para todo k K
3
, existem
k
e x(
k
) tais que
x(
k
) e solu c ao global de:
Minimizar
k
(x)
|x x
k
|
k
(7.2.13)
mas
f(x(
k
)) > f(x
k
) +[
k
(x(
k
))
k
(x
k
)] . (7.2.14)
Pela atualiza c ao do raio de conan ca no Passo 3 do Algoritmo 7.2.1,
temos
k
> 0.1|x(
k
) x
k
| . (7.2.15)
Logo, por (7.2.12) e (7.2.15) segue que
lim
kK
3
|x(
k
) x
k
| = 0 . (7.2.16)
Suponhamos que x
) = g(x
) ,= 0 (7.2.17)
132 CHAPTER 7. REGI
OES DE CONFIANC A
ou
g(x
) = 0 mas
2
f(x
) , 0 . (7.2.18)
Se ocorre (7.2.17), ent ao existe d IR
n
tal que |d| = 1 e
g(x
)
T
d < 0 . (7.2.19)
Ent ao, para k K
3
,
k
(x(
k
))
k
(x
k
+
k
d) = f(x
k
) +
k
g(x
k
)
T
d +
2
k
2
d
T
2
f(x
k
)d
ou seja,
k
(x(
k
)) f(x
k
)
k
g(x
k
)
T
d +
2
k
2
|
2
f(x
k
)|.
Logo, como f(x
k
) =
k
(x
k
),
k
(x(
k
))
k
(x
k
)
k
g(x
k
)
T
d +
|
2
f(x
k
)|
2
k
.
Portanto, existe k
3
^ tal que para k K
4
k K
3
[ k k
3
,
k
(x(
k
))
k
(x
k
)
g(x
)
T
d
2
c
1
< 0 . (7.2.20)
Denimos
k
=
f(x(
k
)) f(x
k
)
k
(x(
k
))
k
(x
k
)
. (7.2.21)
Ent ao
[
k
1[ =
f(x(
k
)) f(x
k
) [
k
(x(
k
))
k
(x
k
)]
k
(x(
k
))
k
(x
k
)
f(x(
k
))
k
(x(
k
))
k
(x(
k
))
k
(x
k
)
=
o(|x(
k
) x
k
|
2
)
c
1
k
= o(
k
) .
Portanto,
lim
kK
4
k
= 1
o que contradiz o fato de que os raios
k
eram rejeitados. Logo f(x
) = 0.
7.2. M
2
f(x
)d < 0 . (7.2.22)
Para k K
3
, denimos d
k
=
k
d se g(x
k
)
T
d 0 e d
k
=
k
d se
g(x
k
)
T
d > 0.
Ent ao,
k
(x(
k
))
k
(x
k
+d
k
) f(x
k
) +
2
k
2
d
T
2
f(x
k
)d,
logo,
k
(x(
k
))
k
(x
k
)
2
k
1
2
d
T
2
f(x
k
)d .
Portanto, existe k
4
^ tal que para k K
5
k K
3
[ k k
4
,
k
(x(
k
))
k
(x
k
)
2
k
1
4
d
T
2
f(x
)d c
2
< 0 .
Assim, usando, de novo, a aproxima c ao de Taylor de segunda ordem,
temos:
[
k
1[ =
f(x(
k
))
k
(x(
k
))
k
(x(
k
)) (x
k
)
1
[c
2
[
o(|x(
k
) x
k
|
2
)
2
k
.
Portanto lim
kK
5
k
= 1, o que contradiz o fato de
k
ser um raio rejeitado.
Assim,
2
f(x
e
f(x
k
)
kN
e monotonicamente decrescente, temos
lim
kK
1
(f(x
k+1
) f(x
k
)) = 0 . (7.2.23)
Mas, pelo Passo 3 do Algoritmo 7.2.1,
f(x
k+1
) f(x
k
) +[
k
(x
k+1
)
k
(x
k
)] . (7.2.24)
Ent ao, por (7.2.23) e (7.2.24), segue que
lim
kK
1
(
k
(x
k+1
)
k
(x
k
)) = 0 . (7.2.25)
134 CHAPTER 7. REGI
OES DE CONFIANC A
Denimos = inf
kK
1
k
> 0 e chamamos x a uma solu c ao global de
Minimizar g(x
)
T
(x x
) +
1
2
(x x
)
T
2
f(x
)(x x
)
|x x
| /2 .
(7.2.26)
Seja k
5
^ tal que
|x
k
x
| /2 (7.2.27)
para todo k K
6
k K
1
[ k k
5
.
Para k K
6
, por (7.2.26) e (7.2.27), temos
| x x
k
|
k
, (7.2.28)
ou seja, x e factvel para o subproblema do Passo 2 do Algoritmo 7.2.1.
Ent ao, pelo fato de x
k+1
ser minimizador global de
k
(x) em |xx
k
|
k
,
segue que
k
(x
k+1
)
k
( x) = f(x
k
) +g(x
k
)
T
( x x
k
) +
1
2
( x x
k
)
T
2
f(x
k
)( x x
k
)
(7.2.29)
ou seja,
k
(x
k+1
)
k
(x
k
) g(x
k
)
T
( xx
k
)+
1
2
( xx
k
)
T
2
f(x
k
)( xx
k
) . (7.2.30)
Por (7.2.25), passando (7.2.30) ao limite para k K
6
, obtemos:
0 g(x
)
T
( x x
) +
1
2
( x x
)
T
2
f(x
)( x x
),
portanto x
| /2
inativa. Logo g(x
) = 0 e
2
f(x
e a mais adequada,
porque a intersec c ao de l x u com |x x
k
|
e, tambem, uma
caixa. Nesse caso, se us assemos, por exemplo, a norma euclidiana o domnio
do subproblema seria uma regi ao bem mais complicada.
Algoritmo 7.3.1 - Minimiza c ao em caixas.
Sejam
min
> 0, (0, 1), | | uma norma arbitr aria e x
0
um ponto
inicial factvel.
Dado x
k
tal que l x
k
u, obter x
k+1
da seguinte maneira:
(1) Escolher
min
e B
k
IR
nn
simetrica tal que |B
k
|
2
M
k
.
(2) Encontrar x
Q
k
solu c ao global de
Minimizar Q
k
(x) f(x
k
) +g(x
k
)
T
(x x
k
) +
M
k
2
|x x
k
|
2
2
l x u
|x x
k
|
(7.3.2)
(3) Encontrar x tal que
k
(x) Q
k
(x
Q
k
)
l x u
|x x
k
|
(7.3.3)
136 CHAPTER 7. REGI
OES DE CONFIANC A
(4) Se f(x) f(x
k
) +[
k
(x)
k
(x
k
)],
denir x
k+1
= x,
k
= e terminar a itera c ao.
Sen ao, escolher
novo
[0.1|x x
k
|, 0.9] ,
novo
e voltar
para (2).
O ponto x que e computado no Passo 3 e o que chamamos solu c ao
aproximada de
Minimizar
k
(x)
sujeita a l x u, |x x
k
| .
(7.3.4)
A condi c ao exigida em (7.3.3) para essa solu c ao aproximada e muito fraca.
De fato, e f acil ver que, devido a |B
k
|
2
M
k
, temos
k
(x) Q
k
(x) para
todo x, portanto o pr oprio x
Q
k
satisfaz as condi c oes de (7.3.3). Por outro
lado, M
k
e x
Q
k
se calculam muito facilmente. M
k
pode ser igual a |B
k
|
,
que e o m aximo da soma dos m odulos das linhas de B
k
, e x
Q
k
e a proje c ao
de x
k
g(x
k
)/M
k
na caixa x IR
n
[ l x u, |x x
k
| . Ou seja,
chamando y
k
= x
k
g(x
k
)/M
k
, temos que, se | | = | |
,
[x
Q
k
]
i
= max l
i
, min [y
k
]
i
, u
i
para todo i = 1, . . . , n.
O Algoritmo 7.3.1 foi introduzido em [82]. Outros procedimentos para
minimizar em caixas, baseados em problemas f aceis diferentes, podem ser
encontrados em [41], [42], [43] e [44]. Qualquer metodo para minimizar
quadr aticas em caixas pode ser usado para resolver (aproximadamente)
(7.3.4). Esses algoritmos s ao, geralmente, iterativos. O aconselh avel e usar
como ponto inicial x
Q
k
, de maneira que a satisfa c ao das condi c oes (7.3.3)
car a automaticamente garantida. No entanto, um criterio de parada adi-
cional e necess ario para interromper o processo combinando uma aprox-
ima c ao razo avel na solu c ao de (7.3.4) com um tempo computacional toler avel.
As ideias dos metodos de Newton truncados vem em nossa ajuda. Como em
(4.3.3), denimos
P
por
[
P
(x)]
i
=
_
_
0 se x
i
= l
i
e [(x)]
i
> 0
0 se x
i
= u
i
e [(x)]
i
< 0
[(x)]
i
nos outros casos,
(7.3.5)
onde l
i
e u
i
s ao os limites da caixa x [ |x x
k
|
. Ent ao, x
satisfaz as condi c oes de primeira ordem para minimizador de (7.3.4) se
P
(x) = 0. (7.3.6)
7.3. MINIMIZAC
AO EM CAIXAS 137
Isto sugere que um criterio de parada razo avel para o processo iterativo
aplicado a (7.3.4) seja:
|
P
(x)|
k
|
P
(x
k
)|, (7.3.7)
com
k
(0, 1) (em geral,
k
0.1), o que evoca o criterio de Dembo, Eisen-
stat e Steihaug e, de fato, coincide com esse criterio no caso em que os limites
l
i
e u
i
s ao innitos. Por facilidade de exposi c ao, estamos tratando sempre
as quadr aticas Q e como fun c oes de x. Na pr atica, elas s ao manipuladas
como fun c oes de x x
k
, atraves de mudan cas de vari aveis obvias.
Finalmente, como (7.3.4) e apenas um subproblema, n ao se justicam
esfor cos enormes para sua resolu c ao. Isto signica que, se por qualquer
motivo, o minimizador de quadr aticas tem diculdades para atingir (7.3.7),
sua execu c ao deve ser interrompida, lembrando que, de qualquer maneira, as
condi c oes (7.3.3) s ao sucientes para assegurar a continuidade do algoritmo
principal. Assim, e freq uente abortar a minimiza c ao da quadr atica quando
o n umero de itera c oes excede um n umero xo, digamos, 10, para problemas
grandes, ou quando o progresso obtido na ultima itera c ao e menor que a
decima parte do melhor progresso obtido nas itera c oes anteriores.
Como no caso das quadr aticas, denimos a dire c ao de Cauchy:
[g
p
(x)]
i
=
_
_
0 se x
i
= l
i
e [f(x)]
i
> 0
ou x
i
= u
i
e [f(x)]
i
< 0
[f(x)]
i
caso contr ario.
Pelas condi c oes de otimalidade de primeira ordem, obtemos a seguinte
caracteriza c ao para minimizadores locais de (7.3.1).
Teorema 7.3.2 - Condi c oes de otimalidade para (7.3.1)
Sejam x
) = 0.
Exerccio 7.1: Demonstrar o Teorema 7.3.2 usando a teoria do Captulo 2
e fornecer uma prova independente.
Como zemos com outros metodos, vamos provar agora que, se um
iterando n ao satisfaz as condi c oes de otimalidade de primeira ordem (neste
caso g
p
(x) = 0), o ponto seguinte pode ser calculado em tempo nito, e a
138 CHAPTER 7. REGI
OES DE CONFIANC A
fun c ao objetivo diminui.
Teorema 7.3.3 - Boa deni c ao.
Se g
p
(x
k
) ,= 0 ent ao x
k+1
est a bem denido e f(x
k+1
) < f(x
k
).
Prova: Como g
p
(x
k
) ,= 0, existe d IR
n
, d ,= 0 tal que d e factvel e de
descida. Ent ao, existe t > 0 tal que
l x
k
+td u
paa todo t [0, t] e
g(x
k
)
T
d < 0 .
Assim, para sucientemente pequeno, por (7.3.2) temos:
Q
k
(x
Q
k
) Q
k
_
x
k
+
d
|d|
_
= f(x
k
) + g(x
k
)
T
d
|d|
+
M
k
2
2
.
Ent ao
Q
k
(x
Q
k
) Q
k
(x
k
)
= g(x
k
)
T
d
|d|
+
M
2
.
Mas
k
(x
k
) = Q
k
(x
k
) e, escrevendo x = x(), temos que
k
(x)
Q
k
(x
Q
k
), portanto existe > 0 tal que
k
(x)
k
(x
k
)
g(x
k
)
T
d
2|d|
c
1
< 0 (7.3.8)
para todo (0, ].
Denimos, para (0, ],
() =
f(x) f(x
k
)
k
(x)
k
(x
k
)
. (7.3.9)
Ent ao, por (7.3.8), temos
[() 1[ =
f(x)
k
(x)
k
(x)
k
(x
k
)
f(x) f(x
k
) g(x
k
)
T
(x x
k
)
c
1
(x x
k
)
T
B
k
(x x
k
)
2c
1
o(|x x
k
|)
[c
1
[
+
|B
k
|
2
|x x
k
|
2
2
2[c
1
[
o()
[c
1
[
+
c
2
M
k
2[c
1
[
,
7.3. MINIMIZAC
AO EM CAIXAS 139
onde c
2
> 0 vem da equivalencia das normas em IR
n
: | |
2
c
2
| |.
Logo, lim
0
() = 1 e portanto, ap os um n umero nito de redu c oes no
raio de conan ca , a condi c ao f(x) f(x
k
)+[
k
(x)
k
(x
k
)] e satisfeita
e o novo ponto x
k+1
est a bem denido. QED
No ultimo teorema deste captulo, mostramos que todo ponto limite de
uma seq uencia gerada pelo Algoritmo 7.3.1 e estacion ario.
Teorema 7.3.4 - Convergencia global.
Seja x
k
uma seq uencia innita gerada pelo Algoritmo 7.3.1. Se lim
kK
1
x
k
=
x
, onde K
1
e um subconjunto innito de ndices e M
k
e limitado para
k K
1
, ent ao g
p
(x
) = 0.
Prova: Devemos considerar duas possibilidades:
inf
kK
1
k
= 0 (7.3.10)
ou
inf
kK
1
k
> 0 . (7.3.11)
Vamos assumir inicialmente que vale (7.3.10). Ent ao existe K
2
K
1
tal
que
lim
kK
2
k
= 0. (7.3.12)
Logo, existe k
2
K
2
tal que
k
<
min
para todo k K
3
k K
2
[ k k
2
.
Mas, a cada itera c ao k, tentamos inicialmente um raio
min
. Logo,
para todo k K
3
, existem
k
, x
Q
k
(
k
) e x(
k
) tais que x
Q
k
(
k
) e solu c ao
global de
Minimizar Q
k
(x)
l x u
|x x
k
|
k
,
vale a desigualdade
k
(x(
k
)) Q
k
(x
Q
k
(
k
))
mas,
f(x(
k
)) > f(x
k
) +[
k
(x(
k
))
k
(x
k
)] . (7.3.13)
Agora, pela atualiza c ao do raio de conan ca no Passo 4 do Algoritmo
7.3.1,
k
0.1|x(
k
) x
k
| . (7.3.14)
140 CHAPTER 7. REGI
OES DE CONFIANC A
Logo, por (7.3.12) e (7.3.14) segue que
lim
kK
3
|x(
k
) x
k
| = 0. (7.3.15)
Suponhamos que g
p
(x
) ,= 0. Ent ao existe d IR
n
, d ,= 0 tal que para
todo [0, 1],
l x
+d u (7.3.16)
e
g(x
)
T
d < 0 . (7.3.17)
Por (7.3.16), existe k
3
K
3
, k
3
k
2
tal que
l x
k
+
2
d u (7.3.18)
para todo k K
4
k K
3
[ k k
3
, [0, 1].
Denimos, para k K
4
,
d
k
=
|x(
k
) x
k
|
|d|
d . (7.3.19)
Por (7.3.15) e (7.3.18), existe k
4
K
4
tal que
l x
k
+d
k
u
para todo k K
5
k K
4
[ k k
4
.
Claramente, |d
k
| = |x() x
k
|
k
. Logo, por (7.3.2), (7.3.3) e
(7.3.19),
k
(x(
k
)) Q
k
(x
Q
k
(
k
)) Q
k
(x
k
+d
k
)
= f(x
k
) + g(x
k
)
T
d
k
+
M
k
2
|d
k
|
2
2
= f(x
k
) +
|x(
k
) x
k
|
|d|
g(x
k
)
T
d +
M
k
2
|d
k
|
2
2
para todo k K
5
.
Ent ao,
k
(x(
k
))
k
(x
k
)
|x(
k
) x
k
|
g(x
k
)
T
d
|d|
+
M
k
c
2
1
2
|d
k
| ,
onde c
1
> 0 vem da equivalencia das normas em IR
n
.
7.3. MINIMIZAC
AO EM CAIXAS 141
Portanto, por (7.3.15), (7.3.17), a continuidade de g e a limita c ao de
M
k
, existem c
2
< 0 e k
5
K
5
tais que
k
(x(
k
))
k
(x
k
)
|x(
k
) x
k
|
c
2
< 0 (7.3.20)
para todo k K
6
k K
5
[ k k
5
.
Denimos, para k K
6
,
k
=
f(x(
k
)) f(x
k
)
k
(x(
k
))
k
(x
k
)
.
Assim, temos
k
1 = a
k
+b
k
onde
a
k
=
f(x(
k
)) f(x
k
) g(x
k
)
T
(x(
k
) x
k
)
k
(x(
k
))
k
(x
k
)
e
b
k
=
1
2
(x(
k
) x
k
)
T
B
k
(x(
k
) x
k
)
k
(x(
k
))
k
(x
k
)
.
Agora, por (7.3.20) e pela equivalencia das normas em IR
n
,
[a
k
[
o(|x(
k
) x
k
|)
|x(
k
) x
k
|
e
[b
k
[
M
k
c
2
1
|x(
k
) x
k
|
2[c
2
[
.
Portanto, lim
kK
6
a
k
= 0 e pela limita c ao de M
k
, lim
kK
6
b
k
= 0. Ou seja,
lim
kK
6
k
= 1, o que contradiz (7.3.13). Dessa forma, (7.3.10) n ao pode se
vericar se g
p
(x
) ,= 0.
Vamos assumir agora a validade de (7.3.11). Como lim
kK
1
x
k
= x
e
f(x
k
)
kN
e monotonicamente decrescente, temos
lim
KK
1
(f(x
k+1
) f(x
k
)) = 0.
Mas, por (7.3.2), (7.3.3) e pelo Passo 4 do Algoritmo 7.3.1,
f(x
k+1
) f(x
k
) +[
k
(x
k+1
)
k
(x
k
)]
f(x
k
) +[Q
k
(x
Q
k
(
k
)) Q
k
(x
k
)].
142 CHAPTER 7. REGI
OES DE CONFIANC A
Logo,
lim
kK
4
Q
k
(x
Q
k
(
k
)) = 0. (7.3.21)
Denimos = inf
kK
1
k
> 0. Seja M > 0 tal que M
k
M para todo
k K
1
e seja x solu c ao global de:
Minimizar g(x
)
T
(x x
) +
M
2
|x x
|
2
2
l x u
|x x
| /2
(7.3.22)
Seja k
6
K
1
tal que
|x
k
x
| /2 (7.3.23)
para todo k K
7
k K
1
[ k k
6
.
Para k K
7
, por (7.3.22) e (7.3.23),
| x x
k
|
k
. (7.3.24)
Alem disso, por (7.3.22),
l x u . (7.3.25)
Ou seja, por (7.3.24) e (7.3.25) vemos que x e factvel para o problema
(7.3.2). Ent ao,
Q
k
(x
Q
k
(
k
)) Q
k
( x) (7.3.26)
para todo k K
7
.
Agora, pela deni c ao de x, por (7.3.26) e (7.3.21),
g(x
)
T
( x x
) +
M
2
| x x
|
2
2
= lim
kK
7
g(x
k
)
T
( x x
k
) +
M
2
| x x
k
|
2
2
= lim
kK
7
Q
k
( x) lim
kK
7
Q
k
(x
Q
k
(
k
)) = 0 .
Mas o valor da fun c ao objetivo de (7.3.22) em x
tambem e 0, portanto,
x
) = 0. QED
O Algoritmo 7.3.1 pode servir como modelo para a globaliza c ao por
regi oes de conan ca de todos os metodos newtonianos. A naturalidade de
sua adapta c ao ` a losoa dos Newton truncados j a foi comentada. Quando
as matrizes B
k
s ao atualizadas por f ormulas secantes, o algoritmo fornece
7.3. MINIMIZAC
AO EM CAIXAS 143
um esquema para globalizar esse tipo de metodos. Tal adapta c ao merece
alguns coment arios:
(a) Nos subproblemas (7.3.3) e (7.3.4), o fato de B
k
ser denida positiva
n ao tem maior relev ancia. Por isso, o procedimento de regi oes de conan ca
e mais adequado que o de buscas lineares para globalizar, por exemplo,
o algoritmo baseado na atualiza c ao de posto 1, e outros metodos onde as
aproxima c oes Hessianas n ao s ao necessariamente denidas positivas.
(b) O fato de B
1
k+1
ser facilmente gerado a partir de B
1
k
n ao pode ser
explorado em regi oes de conan ca como nas buscas lineares. Apenas quando
os limites do subproblema (7.3.4) s ao innitos ou muito grandes, o fato de
se ter B
1
k
facilmente disponvel e uma boa vantagem, pois permite resolver
exatamente o subproblema em um passo s o, se a matriz e denida positiva.
(c) Apesar da observa c ao (b), se B
1
k
e facilmente calcul avel, o ponto
x
k
B
1
k
g(x
k
) pode representar um excelente ponto inicial alternativo para
o algoritmo quadr atico, depois de projetado na regi ao factvel de (7.3.4).
E
inevit avel, porem, manter simultaneamente na mem oria B
k
e B
1
k
.
A compatibilidade do algoritmo global 7.3.1 com os algoritmos locais
subjacentes, nos moldes dos Teoremas 6.2.2 e 6.3.5 ca, mais uma vez, para
ser discutida pelos leitores.
144 CHAPTER 7. REGI
OES DE CONFIANC A
Chapter 8
Minimiza cao unidimensional
Alguns problemas de otimiza c ao consistem em minimizar fun c oes de uma
vari avel. Para esses problemas, podem-se usar os metodos gerais de mini-
miza c ao sem restri c oes, minimiza c ao em caixas, etc. De fato, um bom ex-
erccio para o estudante e vericar como se comportam os algoritmos gerais
em fun c oes univariadas. No entanto, a unidimensionalidade e uma estrutura
extremamente diferenciada, que justica o desenvolvimento de algoritmos
especcos.
Nas vers oes antigas de algoritmos de minimiza c ao de fun c oes de n vari aveis
com busca linear, esta busca era interpretada quase sempre como mini-
miza c ao unidimensional. Os metodos modernos usam, geralmente, buscas
lineares menos exigentes o que, na maioria dos casos e mais eciente. No en-
tanto, buscas lineares duras, semelhantes ` a minimiza c ao unidimensional,
s ao ainda usadas em alguns algoritmos atuais com resultados pr aticos sur-
preendentemente bons [50].
Neste captulo, nosso objetivo e apresentar diferentes tecnicas para mini-
miza c ao unidimensional, adequadas ` as propriedades especcas do problema
(existencia de derivadas, custo de avalia c ao da fun c ao e suavidade). Veremos
que, neste caso, a obten c ao de minimizadores globais e menos complicada
que no caso multivariado.
8.1 Metodos diretos para redu cao de incerteza
Uma fun c ao f de uma vari avel x no intervalo [a, b] e unimodal se existem
1
,
2
[a, b] tais que
145
146 CHAPTER 8. MINIMIZAC
AO UNIDIMENSIONAL
(i) f e estritamente descrescente para x <
1
,
(ii) f e estritamente crescente para x >
2
,
(iii) f e constante para x [
1
,
2
].
F
nk1
F
nk
(b
k
a
k
)
d
k
= a
k
+
F
nk1
F
nk
(b
k
a
k
) .
(8.1.2)
Exerccio 8.1: Vericar que, com o procedimento (8.1.2), c
k+1
coincide
com d
k
e d
k+1
coincide com c
k
.
O metodo da se c ao aurea e obtido da seq uencia de Fibonacci fazendo-se o
n umero n tender para innito. Assim, no limite, a equa c ao de diferen cas de
Fibonacci (8.1.1) passa a fornecer a divis ao do intervalo [a, b] na raz ao aurea
= (
E possvel provar que, xado o n umero de avalia c oes que ser a realizado,
Fibonacci e o metodo otimo para redu c ao de incerteza, pois obtem a m axima
redu c ao para o caso mais desfavor avel (ver, por exemplo, [197]). No entanto,
no metodo da se c ao aurea n ao e necess ario xar-se previamente o n umero
de avalia c oes de fun c ao, o que elimina um pre-requisito pouco natural, do
ponto de vista do c alculo numerico, do metodo de Fibonacci. Na pr atica
de otimiza c ao, criterios de parada baseados no valor da fun c ao objetivo s ao
mais confort aveis, e esses criterios podem ser implementados sem problemas
no metodo aureo.
148 CHAPTER 8. MINIMIZAC
AO UNIDIMENSIONAL
Uma outra estrategia para redu c ao de incerteza, bastante simples e intuitiva,
e o metodo da bisse c ao. Este metodo e usado quando a fun c ao f : [a, b] IR
e diferenci avel, unimodal e tem derivada com avalia c ao computacionalmente
vi avel.
Algoritmo 8.1.2 - Metodo da Bisse c ao.
Dado (toler ancia para redu c ao do intervalo [a, b]),
(1) a
0
= a, b
0
= b.
(2) Dados a
i
, b
i
, calcular c
i
=
1
2
(a
i
+b
i
).
(3) Calcular f(c
i
).
Se f
(c
i
) = 0, parar.
Se f
(c
i
) < 0, a
i+1
= c
i
, b
i+1
= b
i
,
sen ao a
i+1
= a
i
, b
i+1
= c
i
.
(4) Se b
i+1
a
i+1
< , parar,
sen ao i = i + 1 e voltar para (2).
Exerccio 8.3: Provar que todas as fun c oes convexas s ao unimodais.
Exerccio 8.4: Obter uma fun c ao c ubica real que seja unimodal mas n ao
convexa para 0 x 1.
8.2 Aproxima c oes polinomiais
Muitas vezes podemos assegurar um bom comportamento da fun c ao a
ser minimizada, ainda que apenas nas vizinhan cas do minimizador. Desta
maneira, temos garantia de uma boa aderencia entre a fun c ao e uma aprox-
ima c ao por polin omios. A ideia dos metodos que utilizam aproxima c oes poli-
nomiais e, a partir de k + 1 informa c oes sobre a fun c ao (valores da fun c ao,
das derivadas, etc), determinar um polin omio de ordem k, estimando-se o
minimizador da fun c ao a partir do minimizador do polin omio. Em geral,
trabalha-se iterativamente e a estrategia de redu c ao de incerteza utilizada
nos metodos diretos tambem e empregada como salvaguarda. As aprox-
ima c oes polinomiais geram um n umero de itera c oes inferior ao dos metodos
diretos, sendo porem de maior complexidade. No que se segue, vamos ap-
resentar quatro maneiras de efetuar aproxima c oes polinomiais: o metodo de
Newton, o metodo secante, o metodo DSC-Powell e o metodo da aproxima c ao
c ubica.
8.2. APROXIMAC
OES POLINOMIAIS 149
O metodo de Newton consiste em aproximar f em torno do ponto x
k
pela
par abola construda com as informa c oes f(x
k
), f
(x
k
) e f
(x
k
), ou seja,
f(x) q(x) = f(x
k
) +f
(x
k
)(x x
k
) +
f
(x
k
)
2
(x x
k
)
2
. (8.2.1)
Para se empregar o metodo de Newton e preciso que a fun c ao seja duas vezes
diferenci avel. Trata-se de um esquema iterativo localmente convergente,
portanto o ponto inicial x
0
deve estar sucientemente pr oximo da solu c ao
x
(x
k
) > 0, a par abola q(x) e estritamente convexa e x
k+1
ser a um
minimizador global de q(x) se, e somente se,
q
(x
k+1
) = f
(x
k
) +f
(x
k
)(x
k+1
x
k
) = 0.
Desta forma, o novo ponto x
k+1
e dado por:
x
k+1
= x
k
(x
k
)
f
(x
k
)
. (8.2.2)
Observamos que (8.2.2) n ao depende de f(x
k
). Na verdade, este metodo e
equivalente ao metodo da tangente para resolver a equa c ao f
(x) = 0. Por
isso, quando f
(x
k
) < 0, o algoritmo pode convergir para um maximizador.
No metodo secante tambem aproxima-se f em torno de x
k
por uma par abola,
agora construda a partir de f(x
k
), f
(x
k
) e f
(x
k1
). Neste caso, o novo
ponto do esquema iterativo e dado por:
x
k+1
= x
k
(x
k
)(x
k
x
k1
)
f
(x
k
) f
(x
k1
)
. (8.2.3)
Comparando (8.2.2) com (8.2.3), vemos que a informa c ao de segunda ordem
do metodo de Newton e calculada em (8.2.3) usando-se diferen cas nitas.
Assim, para fun c oes cuja avalia c ao e trabalhosa, o esquema iterativo (8.2.3)
torna-se mais eciente. Analogamente ao metodo de Newton, o metodo
secante ter a convergencia assegurada quando o ponto inicial estiver sucien-
temente pr oximo da solu c ao x
:
x
= x
b
+
x(f(x
a
) f(x
c
))
2(f(x
a
) 2f(x
b
) +f(x
c
))
.
(7) Repetir:
redenir x
a
, x
b
, x
c
como x
a
, x
, x
b
ou x
b
, x
, x
c
,
calcular f(x
b
) e estimar x
=
1
2
(x
2
b
x
2
c
)f(x
a
) + (x
2
c
x
2
a
)f(x
b
) + (x
2
a
x
2
b
)f(x
c
)
(x
b
x
c
)f(x
a
) + (x
c
x
a
)f(x
b
) + (x
a
x
b
)f(x
c
)
,
ate que [x
c
x
[ < .
8.2. APROXIMAC
OES POLINOMIAIS 151
Mostra-se que a seq uencia gerada pelo Algoritmo 8.2.1 converge para o min-
imizador quando a fun c ao f e convexa. Para mais detalhes sobre o metodo
DSC-Powell, ver Himmelblau [120].
Na aproxima c ao c ubica s ao necess arias quatro informa c oes para construir um
polin omio de grau tres para aproximar a fun c ao f. A escolha mais cl assica
envolve o conhecimento de f(x
k
), f
(x
k
), f(x
k1
) e f
(x
k1
) e resulta no
seguinte minimizador para a c ubica (Luenberger (1984), p.206):
x
k+1
= x
k
(x
k
x
k1
)[f(x
k
) +
2
1
]
f(x
k
) f
(x
k1
) + 2
2
, (8.2.4)
onde
1
= f
(x
k1
) +f
(x
k
) 3
f(x
k
) f(x
k1
)
x
k
x
k1
e
2
=
_
2
1
f
(x
k1
)f
(x
k
) .
Se a fun c ao e unimodal no intervalo [a, b], f
(a) < 0 e f
[
[x
k
x
[
r
a , r =
1 +
5
2
1.618 .
Exerccio 8.6: Escrever um algoritmo de interpola c ao c ubica com salva-
guardas que garantam uma redu c ao efetiva do intervalo de incerteza em cada
itera c ao.
152 CHAPTER 8. MINIMIZAC
AO UNIDIMENSIONAL
8.3 Tecnicas de minimiza cao global
Quase sempre, o objetivo do otimizador diante de um determinado prob-
lema, e obter um minimizador global. No entanto, a maioria dos algoritmos
pr aticos e ecientes n ao possuem convergencia garantida para esse tipo de
verdadeiros minimizadores. Na maioria dos casos, e possvel provar con-
vergencia, em algum sentido, para pontos estacion arios que, muito provavel-
mente, s ao minimizadores locais. Freq uentemente, pelas pr oprias carac-
tersticas do problema, os pontos estacion arios assim encontrados s ao min-
imizadores globais, o que possibilita a solu c ao efetiva de muitos problemas
pr aticos de otimiza c ao.
No entanto, existem problemas com innidade de minimizadores locais, cuja
resolu c ao por algoritmos como os mencionados acima e extremamente difcil.
Isso motiva o desenvolvimento de metodos globais, isto e, algoritmos com
convergencia garantida para um minimizador global do problema. Infeliz-
mente, os metodos globais assim desenvolvidos perdem muito de sua ec acia
quando aplicados a problemas de grande porte. Freq uentemente, o tempo e a
mem oria requeridos por uma itera c ao s ao proibitivos ate para computadores
avan cados.
A situa c ao e diferente quando o n umero de vari aveis e pequeno, especial-
mente, quando a fun c ao e de uma vari avel s o, como as que estudamos neste
captulo. Assim, e possvel que tecnicas globais unidimensionais, combi-
nadas com tecnicas locais baseadas em buscas lineares ou ate regi oes de
conan ca consigam aumentar muito a potencialidade global destas ultimas.
Neste captulo, vamos destacar as tecnicas de minimiza c ao global utilizando
envelopes convexos e an alise intervalar [146], [145], [114].
A obten c ao de um minimizador global de f : [a, b] IR atraves de envelopes
convexos baseia-se na parti c ao do intervalo [a, b] e, conseq uentemente, do
problema original, em subproblemas. A seguir, utilizando-se uma subesti-
mativa convexa para a fun c ao objetivo no subintervalo, determina-se facil-
mente um limitante inferior para o minimizador do subproblema atraves do
minimizador do envelope convexo. Acrescentando-se uma estrategia para
eliminar subintervalos, com base nos valores mnimos encontrados para
a fun c ao, mostra-se que o ponto correspondente ao menor dos limitantes
inferiores determinados para a fun c ao converge para a solu c ao global do
problema original.
Com rela c ao ` a determina c ao dos envelopes convexos, o fundamental e en-
contrar os pontos em que a representa c ao da subestimativa convexa muda
de forma. Quando a fun c ao tem trechos convexos, muitas vezes o envelope
convexo coincide com a fun c ao original num subintervalo. Pode ainda ser
8.3. T
ECNICAS DE MINIMIZAC
AO GLOBAL 153
uma reta unindo um ponto ao trecho adjacente, convertendo-se novamente
na fun c ao num trecho seguinte, e assim por diante. A determina c ao de
quantas representa c oes diferentes s ao necess arias depende tanto dos taman-
hos dos subintervalos quanto do comportamento da pr opria fun c ao. Para se
conhecer os pontos exatos em que o envelope convexo muda de representa c ao
(de uma reta para a curva da fun c ao ou vice-versa), basta fazer um ajuste
entre as declividades da curva e da reta. Em outras palavras, se a e o ponto
inferior do intervalo, queremos encontrar x [a, b] tal que
f(x)f(a)
xa
= f
(x),
que e equivalente a
f(x) f(a) (x a)f
(x) = 0. (8.3.1)
Dentre as diversas estrategias para se resolver (8.3.1), o metodo de Newton
implementado com salvaguardas geralmente funciona bem e tem o seguinte
esquema iterativo:
x
k+1
= x
k
+
_
f(x
k
) f(a)
x
k
a
f
(x
k
)
_
_
f
(x
k
)
1
. (8.3.2)
A ideia b asica da an alise intervalar aplicada ` a minimiza c ao global e o re-
namento dos intervalos contendo o valor extremo, descartando-se as regi oes
em que o minimizador global n ao pode estar. Assim, na determina c ao do
minimizador global de f : [a, b] IR, suponhamos que [a, b] foi subdividido
em [a, c] e [c, b]. Suponhamos tambem que conhecemos [u, v] contendo a
imagem do intervalo [c, b] pela f, isto e f([c, b]) [u, v] e conhecemos [w, z]
contendo f(x
1
), com x
1
[a, c]. Se z < u, ent ao todo o intervalo [c, b] pode
ser descartado, j a que n ao existe x [c, b] tal que o valor f(x) seja menor
que f(x
1
) z. Assim, o minimizador de f em [a, b] est a em [a, c] e n ao em
[c, b]. Portanto, com este tipo de teste pode-se excluir regi oes que segura-
mente n ao contem o minimizador global procurado.
Exerccio 8.7: Aplicar as tecnicas de envelopes convexos e an alise inter-
valar para obter o minimizador global de
(a) f(x) = e
x
+ sen (x) +x
2
, x [1, 2].
(b) f(x) = x(1 +x) cos (x) , x [2, 2].
154 CHAPTER 8. MINIMIZAC
AO UNIDIMENSIONAL
Chapter 9
Restri c oes lineares
Vamos considerar o problema de otimiza c ao em que a regi ao factvel e um
politopo em IR
n
, ou seja, um conjunto denido por equa c oes e inequa c oes
lineares. A minimiza c ao em caixas e um caso particular desse problema.
No captulo 7, aplicamos o algoritmo geral de regi oes de conan ca ao caso
l x u, dando um sentido (o do subproblema f acil) ` a minimiza c ao
aproximada do modelo quadr atico. Aqui, em princpio, podemos proceder
da mesma maneira, com a diculdade de que o problema f acil n ao e t ao
f acil como no caso das caixas. Com efeito, quando o conjunto factvel e um
politopo, o ponto x
Q
k
do Algoritmo 7.3.1 e a proje c ao de x
k
g(x
k
)/M
k
na in-
tersec c ao desse conjunto com a caixa de conan ca. Embora haja raz oes para
supor que essa proje c ao n ao e difcil de se calcular, certamente e bem mais
complicada que quando a regi ao e uma caixa ndimensional. Tambem, neste
caso, e mais conitante a decis ao sobre o algoritmo a ser usado para deter-
minar o ponto-tentativa x. Portanto, embora as quest oes te oricas relativas ` a
aplica c ao de regi oes de conan ca a minimiza c ao com restri c oes lineares este-
jam essencialmente resolvidas em [142], n ao existem ainda implementa c oes
pr aticas amplamente reconhecidas. Ver, tambem [89] e [40].
Os metodos mais tradicionais para otimiza c ao em politopos est ao basea-
dos na estrategia de restri c oes ativas. A ideia e similar ` a usada no captulo
4 para minimizar quadr aticas em caixas. A regi ao e dividida em faces, de
maneira que, dentro de cada uma delas, o problema e, essencialmente, ir-
restrito. Uma face pode ser abandonada apenas quando o trabalho sobre
ela se revela improdutivo. Ver [75], [92], [94], [99], [154], [155], [172], [173],
[174] e o artigo pioneiro de Rosen [178].
Os problemas de programa c ao linear e programa c ao quadr atica s ao ca-
sos particulares do tratado neste captulo. No primeiro, a fun c ao objetivo
155
156 CHAPTER 9. RESTRIC
OES LINEARES
e linear (f(x) = c
T
x) e, no segundo, e uma quadr atica. O metodo mais
usado para programa c ao linear e o Simplex [46] que e, de fato, um al-
goritmo de restri c oes ativas. O programa MINOS para minimiza c ao com
restri c oes ([154], [155]) e, quando aplicado a problemas lineares, uma das
implementa c oes mais ecientes do metodo Simplex para grande porte. O
conte udo deste captulo se aplica, em conseq uencia a programa c ao linear e
quadr atica, mas a estrutura especial destes problemas, e o tratamento da
degenera c ao primal justica o desenvolvimento de textos especcos. Ver
[46], [9], etc.
A programa c ao linear e outras areas da otimiza c ao foram sacudidas, a
partir de 1984, com o desenvolvimento dos metodos de pontos interiores.
Ver [103]. Algumas indica c oes sobre a aplica c ao desses metodos ` a mini-
miza c ao de fun c oes gerais com restri c oes lineares ser ao dadas neste captulo.
9.1 Igualdades
O problema geral deste captulo e:
Minimizar f(x)
sujeita a x
(9.1.1)
onde f C
1
() e = x IR
n
[ A
1
x = b
1
, A
2
x b
2
, com A
1
IR
m
1
n
e
A
2
IR
m
2
n
. O conjunto denido pelas restri c oes lineares de igualdade
e desigualdade e denominado politopo.
Um politopo geral sempre pode ser levado ` a forma x IR
n
[ Ax =
b , x 0 ou ` a forma x IR
n
[ Ax = b , l x u, mediante a introdu c ao
de vari aveis de folga. Alguns algoritmos trabalham exclusivamente com
essa formula c ao, chamada padr ao.
Exerccio 9.1: Converter = x IR
n
[ A
1
x = b
1
, A
2
x b
2
para o
formato y IR
N
[ Ay = b , y 0.
Na deni c ao de , estamos incluindo as possibilidades m
1
= 0 e m
2
= 0.
Se ambas dimens oes s ao nulas, o problema e irrestrito. Se apenas m
2
= 0
temos o problema de minimiza c ao com restri c oes de igualdade:
Minimizar f(x)
sujeita a Ax = b .
(9.1.2)
9.1. IGUALDADES 157
Suponhamos que a regi ao factvel de (9.1.2) e n ao vazia e seja x IR
n
tal que Ax = b. Ent ao, todos os pontos da que vericam Ax = b satisfazem
x = x +Zz, onde Z IR
n(nmp)
e uma matriz cujas colunas formam uma
base para o n ucleo da matriz A e m
p
e o posto de A. Assim, (9.1.2) pode
ser reescrito como um problema irrestrito num espa co de dimens ao menor:
Minimizar (z) f(x +Zz)
z IR
nmp
.
(9.1.3)
Exerccio 9.2: Mostrar que
(z) = Z
T
f(x +Zz)
e
2
(z) = Z
T
2
f(x +Zz)Z.
O vetor e denominado gradiente reduzido e a matriz
2
, Hessiana re-
duzida.
Uma vez encontrado x tal que Ax = b e Z tal que (Z) = ^(A), a
resolu c ao de (9.1.2) pode ser tentada usando um metodo direcional (Newton,
quase-Newton) ou um metodo de regi oes de conan ca para minimiza c ao sem
restri c oes. Ver [74].
Para a viabilidade de metodos baseados em (9.1.3) para problemas de
grande porte e fundamental que a matriz Z seja esparsa. Ainda mais, se
a inten c ao e implementar o metodo de Newton, tambem e necess ario que
Z
T
2
f(x)Z o seja. Se Z e grande e densa, (9.1.3) n ao pode ser utilizado.
Nesse caso, observamos que, se B e uma matriz denida positiva (melhor,
esparsa e talvez diagonal), a solu c ao de
Minimizar
1
2
d
T
Bd +g(x)
T
d sujeita a Ad = 0 (9.1.4)
corresponde a uma solu c ao (d, ) do sistema linear
Bd +g(x) +A
T
= 0, Ad = 0. (9.1.5)
Portanto, a dire c ao d computada por (9.1.5) e uma dire c ao de descida para
f, pertencente ao n ucleo de A. Se B = I, d = d() se aproxima de uma
dire c ao de m axima descida no n ucleo, quando tende a innito. Agora,
(9.1.5) pode ser resolvido usando apenas a esparsidade de A ou, talvez, um
metodo iterativo linear. Ideias an alogas ` as invocadas no captulo 6 podem
158 CHAPTER 9. RESTRIC
OES LINEARES
ser adaptadas para provar que um algoritmo baseado em dire c oes d
k
cal-
culadas por (9.1.5), com backtracking, e globalmente convergente a um
ponto estacion ario de (9.1.2). Uma vantagem adicional de usar iterativa-
mente (9.1.5) e que os sucessivos
k
s ao estimativas dos multiplicadores de
Lagrange na solu c ao. A import ancia desse fato emergir a no tratamento de
restri c oes de desigualdade.
9.2 Estrategia de restri c oes ativas
Para facilitar a exposi c ao, consideraremos o problema geral de minimiza c ao
em politopos apenas na forma
Minimizar f(x)
sujeita a Ax b ,
(9.2.1)
onde A IR
mn
, A
T
= (a
1
. . . a
m
) , a
i
IR
n
, i = 1, . . . , m. A transposi c ao
das ideias desta se c ao para o formato geral (9.1.1) e rotineira, e ser a deixada
como exerccio para o leitor. Como antes, escrevemos = x IR
n
[ Ax
b. As deni c oes a seguir s ao paralelas ` as dadas quando introduzimos algo-
ritmos para minimizar quadr aticas em caixas.
Deni c ao 9.2.1
Dado I 1, 2, . . . , m, chamamos de face relativa ao conjunto I ao
conjunto
F
I
= x [ a
T
i
x = b
i
se i I e a
T
i
x > b
i
se i , I .
Como sempre, chamamos F
I
ao fecho de F
I
.
As restri c oes que s ao satisfeitas por x na igualdade, isto e, tais que
a
T
i
x = b
i
, i I, s ao chamadas ativas em x. As outras s ao denominadas
inativas .
Exerccio 9.3: Provar que
(a) =
_
IP
F
I
, onde T e o conjunto das partes de 1, 2, . . . , m .
(b) Se I
1
,= I
2
, F
I
1
F
I
2
= .
Vamos denir agora um algoritmo conceitual que implementa a es-
trategia de restri c oes ativas. Nesse algoritmo, trabalhamos com super-
itera c oes, que permitem passar diretamente de um ponto qualquer a um
9.2. ESTRAT
EGIA DE RESTRIC
OES ATIVAS 159
minimizador global irrestrito. Naturalmente, a existencia dessas super-
itera c oes na pr atica est a restrita a problemas simples, como os lineares ou
quadr aticos. Chamamos o ao conjunto de minimizadores globais de (9.2.1)
e partimos de um ponto inicial arbitr ario e factvel.
Algoritmo 9.2.2 - Estrategia de restri c oes ativas.
Dado x
k
, x
k
F
I
, x
k
, o ,
se x
k
e minimizador de f em F
I
,
ent ao
(1) x
k+1
, F
I
e f(x
k+1
) < f(x
k
).
Sen ao
(2) x
k+1
F
I
e x
k+1
e minimizador de f em F
I
, ou
(3) x
k+1
[F
I
F
I
] (a fronteira de F
I
) e f(x
k+1
) < f(x
k
), ou
(4) f e ilimitada inferiormente em F
I
e o algoritmo p ara.
O leitor familiarizado com o Simplex poder a reconhecer que esse metodo
est a no escopo do Algoritmo 9.2.2. As faces visitadas nesse caso s ao vertices,
formadas por um unico ponto. Portanto x
k
sempre e minimizador de f em
F
I
, o fecho de F
I
e a pr opria F
I
e o ponto seguinte e um ponto diferente
onde a fun c ao objetivo diminui. Para interpretar corretamente o caso em
que o Simplex detecta que o problema e ilimitado, a partir do vertice x
k
,
pensemos na introdu c ao de uma itera c ao ctcia x
k+1
factvel e situada
na semi-reta ao longo da qual f tende a . Essa ultima itera c ao est a
numa aresta F
I
na qual a fun c ao e ilimitada inferiormente. A situa c ao,
portanto, corresponde ao Passo 4 do Algoritmo 9.2.2.
No seguinte teorema, provamos que a estrategia de restri c oes ativas e
sempre bem sucedida. A diculdade estar a, em conseq uencia, em sua im-
plementa c ao.
Teorema 9.2.3
Em um n umero nito de itera c oes, o metodo das restri c oes ativas en-
contra a solu c ao de (9.2.1) ou detecta que o problema n ao tem solu c ao.
Prova: Suponhamos que o Passo 4 do Algoritmo 9.2.2 n ao acontece em
nenhuma itera c ao da seq uencia x
k
. Quando uma face F
I
e abandonada
no Passo 1, ent ao, como x
k
e minimizador global para x F
I
e f(x
j
) e
mon otona decrescente, temos que x
j
/ F
I
para todo j > k. Como o n umero
de faces e nito, a partir de certo k
0
o Passo 1 n ao e mais executado. Pela
nitude do n umero de restri c oes, o Passo 3 tambem pode ser executado
160 CHAPTER 9. RESTRIC
OES LINEARES
apenas um n umero nito de vezes se k k
0
. Portanto, a partir de certo
k
1
k
0
, apenas o Passo 2 e possvel. Isso implica que x
k
1
+1
e minimizador
global na sua face. Como o Passo 1 n ao e mais possvel, resulta que x
k
1
+1
deve ser minimizador global do problema. QED
Apesar do Algoritmo 9.2.2 ter convergencia nita, o Passo 2 e, quase
sempre, impossvel de ser executado em um n umero nito de etapas. Assim,
uma itera c ao do Algoritmo 9.2.2 e, na verdade, uma super-itera c ao, pois
pode embutir um procedimento innito.
Suponhamos que x
k
F
I
n ao e minimizador global de f em F
I
. Para
obter x
k+1
pelo Passo 2 ou pelo Passo 3, denimos 1(F
I
) = x IR
n
[ a
T
i
x =
b
i
, i I e consideramos o problema
Minimizar f(x)
sujeita a x 1(F
I
)
ou, equivalentemente,
Minimizar f(x)
sujeita a a
T
i
x = b
i
, i I .
(9.2.2)
Este problema e do tipo (9.1.2). Para resolve-lo aplicamos um metodo
iterativo, come cando com x
0
k
= x
k
, e gerando uma seq uencia x
1
k
, x
2
k
, . . . de
maneira que, antes de parar, x
j
k
1(F
I
) e f(x
j+1
k
) < f(x
j
k
) para todo j .
Suponhamos que, antes da parada, aparece j tal que x
j+1
k
/ . Neste caso,
chamamos d
j
k
= x
j+1
k
x
j
k
e t
j
o m aximo t > 0 tal que [x
j
k
, x
j
k
+ td
j
k
] .
Uma suposi c ao sobre o processo para (9.2.2) que garante que o Passo 3 do
Algoritmo 9.2.2 pode ser completado e que
f(x
j
k
+t
j
d
j
k
) < f(x
j
k
).
Nessa situa c ao, chamamos x
k+1
= x
j
k
+t
j
d
j
k
. O metodo iterativo aplicado a
(9.2.2) ser a interrompido, no melhor caso, quando x
j
k
seja minimizador global
de f em F
I
, mas e difcil que consigamos essa propriedade em tempo nito.
(Uma exce c ao e quando f e uma quadr atica estritamente convexa.) Por-
tanto, o Algoritmo 9.2.2 n ao poder a ser rodado em estado puro, e a condi c ao
se x
k
e minimizador de f em F
I
dever a ser substituda, na pr atica, por se
x
k
e minimizador aproximado de f em F
I
. A decis ao sobre o que se con-
sidera minimizador aproximado dene diferentes metodos implement aveis
de restri c oes ativas.
9.3. SAINDO DA FACE 161
9.3 Saindo da face
Nesta se c ao, descrevemos uma das possveis maneiras de viabilizar o
Passo 2 do Algoritmo de restri c oes ativas. Mais precisamente, vamos supor
que x
j
k
e uma das itera c oes do algoritmo interno usado dentro de F
I
, que
devemos decidir se x
j
k
j a e minimizador aproximado nessa face, e, em caso
armativo, que precisamos mostrar como conseguir x
k+1
/ F
i
e f(x
k+1
) <
f(x
j
k
). Para simplicar a nota c ao, escreveremos x
k
em vez de x
j
k
.
Vamos supor, a princpio, que os gradientes das restri c oes que denem a
face F
I
s ao linearmente independentes. Sem perda de generalidade, supon-
hamos que I = 1, . . . , ,
A
T
= (a
1
, . . . , a
). Portanto,
A tem posto
e admite uma submatriz B IR
= a
T
x
y
+1
= x
+1
.
.
.
y
n
= x
n
ou seja,
y =
_
B N
0 I
_
x =
Bx .
f( y) por
[
f( y)]
i
= 0 se y
i
= b
i
e [
f( y)]
i
0 ;
[
f( y)]
i
= [
f( y)]
i
nos outros casos.
O ponto y ser a estacion ario de primeira ordem de (9.2.1), (9.2.2) e (9.3.1)
se, e somente se,
f( y) = 0.
Se
f( y) = (
C
f( y)
T
,
I
f( y)
T
)
T
,
com
C
f( y) IR
I
f( y) IR
n
, teremos tambem que x
k
e ponto
estacion ario de (9.1.2) se, e somente se,
I
f( y) IR
n
= 0. Portanto,
e natural que a decis ao sobre abandonar a face ou n ao dependa de uma
avalia c ao do quociente
quoc =
|
I
f( y)|
|
f( y)|
.
Claramente, quoc [0, 1] e a decis ao de abandono ser a obrigat oria quando
quoc = 0, j a que nesse caso nada mais podemos esperar de um algoritmo
que use apenas derivadas primeiras para minimizar (9.1.2). Por outro lado,
se quoc = 1 deveremos car dentro da face, pois todo o potencial de descida
se encontra dentro dela. Assim, nada mais sensato que decidir pela saida
(Passo 2) quando quoc TOL onde TOL e uma toler ancia entre 0 e 1. Toda
analogia com o algoritmo dado no captulo 4 para minimizar quadr aticas em
caixas e proposital. Uma vez decidido o abandono da face, temos bastante
liberdade para escolher a dire c ao de sada, j a que, em princpio, qualquer
dire c ao no espa co y que seja factvel, de descida, e tenha alguma das
primeiras coordenadas maiores que 0, servir a para esse m. Uma candidata
natural e
d =
, y
, z
, y
, z
) =
0.
Prova: A primeira parte e imediata. Como e limitado e f e contnua,
existe um minimizador global para o problema (9.4.1). Este minimizador
tem que satisfazer (9.4.2) e, portanto, e um minimizador global de (9.4.3).
9.4. REDUC
AO A CAIXAS 165
Vamos supor que (x, y, z) seja um ponto estacion ario do problema (9.4.3).
Ent ao existem , IR
n
tais que
A
T
(Ax b) +
2
f(x)(f(x) +A
T
y z) + (x
T
z)z = 0 , (9.4.4)
A(f(x) +A
T
y z) = 0 , (9.4.5)
(f(x) +A
T
y z) + (x
T
z)x = 0 , (9.4.6)
T
x = 0 , (9.4.7)
T
z = 0 , (9.4.8)
x 0 , z 0 , 0 , 0 . (9.4.9)
Por (9.4.5) e (9.4.6) temos que
(x
T
z)x ^(A) , (9.4.10)
onde ^(A) e o n ucleo da matriz A.
Portanto, pre-multiplicando (9.4.4) por (x
T
z)x e usando (9.4.6),
obtemos
((x
T
z)x)
T
2
f(x)((x
T
z)x)+((x
T
z)x)
T
((x
T
z)z) = 0 . (9.4.11)
Como
2
f e semi-denida positiva, (9.4.11) implica em
((x
T
z)x )
T
((x
T
z)z ) 0 .
Logo, por (9.4.7) e (9.4.8) segue que
(x
T
z)
3
+
T
0 . (9.4.12)
Assim, por (9.4.9) temos
x
T
z = 0 (9.4.13)
e
T
= 0 . (9.4.14)
Por (9.4.6) e (9.4.13),
(f(x) +A
T
y z) = 0 . (9.4.15)
Mas, por (9.4.5), (f(x) + A
T
y z) ^(A). Portanto, como e
limitado, a equa c ao (9.4.15) implica necessariamente em
(f(x) +A
T
y z) = 0 . (9.4.16)
166 CHAPTER 9. RESTRIC
OES LINEARES
Ent ao, por (9.4.4), (9.4.13) e (9.4.16) temos
A
T
(Ax b) = 0 . (9.4.17)
Agora, (9.4.17) e (9.4.7) s ao as condi c oes de otimalidade (necess arias e
sucientes) do problema quadr atico convexo
Minimizar
1
2
|Ax b|
2
sujeita a x 0 .
(9.4.18)
Como e n ao vazio, temos que Ax = b. Esta igualdade, juntamente
com (9.4.13) e (9.4.16) completam a prova. QED
O problema
Minimizar
1
2
_
|f(x) +A
T
y z|
2
+|Ax b|
2
+x
T
z
_
sujeita a x 0 , z 0
(9.4.19)
e obviamente equivalente a (9.4.3). No entanto, (9.4.19) pode admitir pontos
estacion arios que n ao s ao minimizadores globais. De fato, basta consider-
armos o problema de minimizar x sujeito a 0 x 2 ou, no formato
(9.4.1), minimizar x
1
sujeito a x
1
+x
2
= 2, x
1
0 , x
2
0. O problema da
forma (9.4.19) associado a este problema trivial admite o ponto estacion ario
x = (2, 0)
T
e z = (0, 0)
T
, que naturalmente n ao e um minimizador global.
9.5 Pontos interiores
A revolu c ao dos metodos de pontos interiores come cou em 1984 com o
lan camento do metodo de Karmarkar [124]. Por primeira vez na hist oria
era anunciado um algoritmo eciente na pr atica e, ao mesmo tempo, poli-
nomial, para o problema de programa c ao linear. Desde ent ao, foram es-
critos centenas de artigos introduzindo e analisando algoritmos desse tipo.
O survey [103] e, provavelmente, a melhor referencia disponvel para o
estado da arte ate 1992. Nesta se c ao nos limitaremos a introduzir a ideia
ane-scaling ([58], [3], [193], [5]), uma das mais fecundas geradoras de al-
goritmos de pontos interiores, no contexto da minimiza c ao de fun c oes gerais
com restri c oes lineares.
A ideia dos metodos de pontos interiores e provocativamente contra-
dit oria com o metodo Simplex, e com as estrategias de restri c oes ativas
em geral. Mesmo sabendo que, com alta probabilidade, a solu c ao est a na
9.5. PONTOS INTERIORES 167
fronteira (com certeza em um vertice no caso da programa c ao linear), esses
algoritmos geram iterandos que permanecem sempre no interior do conjunto.
Em vez de apostar na face em que provavelmente se encontra o minimizador,
de acordo com a informa c ao disponvel, os metodos de pontos interiores evi-
tam o fracasso de repetidos abandonos seguindo caminhos curvos na regi ao
onde nenhuma restri c ao e ativa.
A t atica ane-scaling se baseia em subproblemas onde a regi ao e
substituida por um elips oide interno, que nos permitiremos identicar com
uma regi ao de conan ca. Primeiro, acrescentemos vari aveis de folga em
(9.1.1), de maneira que nosso problema e
Minimizar f(x) sujeita a Ax z = b, z 0. (9.5.1)
O ponto inicial x
0
, assim como todos os iterandos x
k
, ser a interior a ,
ou seja, Ax
k
> b (z
k
> 0) para todo k.
O maior elips oide no espa co z, centrado em z
k
, contido no ortante pos-
itivo e com eixos paralelos aos eixos coordenados e dado por
m
i=1
(z
i
[z
k
]
i
)
2
[z
k
]
2
i
1, (9.5.2)
ou seja
(z z
k
)
T
Z
2
k
(z z
k
) 1, (9.5.3)
onde Z
k
e a matriz diagonal cujas entradas s ao [z
k
]
i
, i = 1, . . . , m. Portanto,
e bastante natural considerar o subproblema
Minimizar
f(x) sujeita a Ax z = b, (z z
k
)
T
Z
2
k
(z z
k
) 1. (9.5.4)
onde
f(x) e uma aproxima c ao de f(x), construda com a informa c ao disponvel
em x
k
. Por exemplo,
f(x) = f(x
k
) +f(x
k
)(x x
k
) +
1
2
(x x
k
)
T
B
k
(x x
k
) (9.5.6)
ou
f(x) = f(x
k
) +f(x
k
)(x x
k
). (9.5.7)
Em todos os casos,
f(x
k
) = f(x
k
). Desenvolvendo (9.5.4), o subprob-
lema toma a forma
Minimizar
f(x) sujeita a (Ax b z
k
)
T
Z
2
k
(Ax b z
k
) 1, (9.5.8)
168 CHAPTER 9. RESTRIC
OES LINEARES
ou, usando que z
k
= Ax
k
b,
Minimizar
f(x) sujeita a (x x
k
)
T
A
T
Z
2
k
A(x x
k
) 1. (9.5.9)
Suponhamos que o posto de A e n. O subproblema (9.5.9) pode ser resolvido
com apenas uma fatora c ao de Cholesky no caso (9.5.7). Se
f(x) e quadr atica,
pode ser reduzido, pela mudan ca de vari aveis y = [A
T
Z
2
k
A]
1
2
(x x
k
) a
minimizar quadr aticas em bolas, problema que estudamos no captulo 4 e
relembramos no captulo 7 . Solu c oes aproximadas de (9.5.9) no caso (9.5.5)
podem ser obtidas usando os algoritmos de minimiza c ao em bolas descritos
em [142].
Chamamos
d
k
= x x
k
a uma solu c ao aproximada de (9.5.9). A aprox-
ima c ao deve ser, pelo menos no sentido de que
f(x
k
+
d
k
) <
f(x
k
) sempre que f(x
k
) ,= 0.
Se
f e convexa ou quadr atica, isto implica que f(x
k
)
T
d
k
< 0. Nesse caso,
denimos
d
k
=
k
d
k
onde
k
e o maior tal que [x
k
, x
k
+
d
k
] e
d
k
=
d
k
onde (0, 1) e muito pr oximo de 1, digamos 0.95, de maneira que x
k
+d
k
e interior mas est a pr oximo da fronteira. Finalmente, x
k+1
= x
k
+ td
k
,
com t [0, 1], e obtido por um processo de backtracking, ate satisfazer uma
condi c ao de tipo Armijo.
Quando
f n ao e convexa nem quadr atica, e mais coerente, no caso de
f(x
k
+d
k
) n ao ser sucientemente menor que f(x
k
), denir sucessivos sub-
problemas mediante diminui c ao do tamanho da regi ao de conan ca.
Exerccio 9.10: Estabelecer a rela c ao entre o posto de A e a limita c ao do
politopo . Justicar a suposi c ao de que o posto de A e n.
Exerccio 9.10: Formular o Algoritmo da Se c ao 9.5 para o caso linear
f(x) = c
T
x. Mostrar que a solu c ao do subproblema e a de um sistema
linear com matriz denida positiva. Relacionar quase-singularidade dessa
matriz com pontos degenerados (n ao-regulares) da fronteira.
9.5. PONTOS INTERIORES 169
Exerccio 9.11: Modicar o algoritmo (colocando salvaguardas) de maneira
que sua convergencia possa ser provada usando tecnicas de regi oes de con-
an ca.
Exerccio 9.12: Detalhar a mudan ca de vari aveis que faz com que o sub-
problema tenha como domnio uma bola.
Exerccio 9.13: Justicar a arma c ao se
f e convexa ou quadr atica, d
k
e
uma dire c ao de descida. Mostrar que n ao e verdade no caso n ao-convexo.
170 CHAPTER 9. RESTRIC
OES LINEARES
Chapter 10
Penalidade
N ao apenas em otimiza c ao, mas tambem em outras areas da atividade
humana, procura-se converter problemas complexos em outros cuja resolu c ao
e conhecida. Os leitores satisfeitos com as estrategias introduzidas ate aqui
para minimiza c ao sem restri c oes, minimiza c ao em caixas e em politopos
se sentiriam agradecidos se qualquer outro problema de otimiza c ao com re-
stri c oes n ao lineares pudessse ser reduzido ` aqueles. A penalidade e o proced-
imento mais radical para isso. Mediante ele, a n ao-satisfa c ao (ou o risco de
n ao-satisfa c ao) de uma restri c ao e sancionada com um acrescimo da fun c ao
objetivo, de maneira que a fun c ao que dene a restri c ao e eliminada como
tal e substituda por um termo introduzido no objetivo.
Na chamada penalidade interna a fun c ao objetivo e modicada agre-
gando um termo funcional que tende a innito quando o ponto se aproxima
da fronteira do conjunto factvel. Forma-se assim uma especie de barreira
intransponvel: metodos irrestritos come cando no interior da regi ao s ao des-
encorajados de se aproximar do contorno devido a valores muito altos do
objetivo. Por esse motivo, os metodos de penalidade interna s ao tambem
conhecidos por metodos de barreira. Esses s ao, por outro lado, os mais anti-
gos metodos de pontos interiores, com prestgio radicalmente incrementado
ap os a revolu c ao que seguiu-se ao trabalho de Karmarkar [124].
Na penalidade externa, muitas vezes denominada simplesmente de pe-
nalidade, acrescenta-se na fun c ao objetivo um termo cujo custo aumenta
com a viola c ao das restri c oes. A solu c ao de um problema penalizado exter-
namente est a, geralmente, fora do conjunto factvel, mas se aproxima dele
quando o termo de penalidade e muito grande.
A raz ao pela qual a penalidade n ao e o procedimento universal para li-
dar com restri c oes e que o par ametro que deve multiplicar ` a fun c ao-restri c ao
171
172 CHAPTER 10. PENALIDADE
para castigar viola c ao (na externa) ou o risco de viola c ao (na interna)
provoca, ao tomar valores extremos, pesado mal-condicionamento do prob-
lema. Tambem peca a losoa penalizadora por outro defeito essencial:
a pr opria estrutura do problema e transtornada quando uma restri c ao e
acrescida ` a fun c ao objetivo, em geral, complicando a sionomia desta. No
entanto, todas as estrategias de penalidade est ao vivas na otimiza c ao con-
tempor anea por sua simplicidade, adaptabilidade para problemas de grande
porte, e capacidade de se enriquecer automaticamente com os progressos
realizados na resolu c ao de problemas mais simples.
10.1 Metodos de barreiras
Os metodos de penalidade interna ou barreiras foram originalmente pro-
postos para lidar com restri c oes n ao lineares de desigualdade, quando, via
de regra, o conjunto factvel tem interior n ao vazio.
Consideraremos, para a introdu c ao dos metodos de penalidade interna,
problemas de otimiza c ao da seguinte forma:
Minimizar f(x)
sujeita a c(x) 0 , x T,
(10.1.1)
onde T e um subconjunto de IR
n
, c : IR
n
IR
m
, f , c C
0
(T) e
= x T [ c(x) 0
tem interior relativo n ao vazio, denotado por
.
(ii) B(x) 0 para todo x
.
(iii) Se x
k
, c(x
k
) > 0 para todo k e lim
k
c
i
(x
k
) = 0 para algum
i 1, . . . , m, ent ao lim
k
B(x
k
) = .
A diferenciabilidade da fun c ao barreira n ao e essencial para o metodo
em si. Entretanto, se a fun c ao objetivo original e diferenci avel, torna-se
10.1. M
, k = 1.
(1) Calcular x
k
x(t
k
) solu c ao global de
Minimizar f(x) +t
k
B(x)
sujeita a x
.
(10.1.2)
(2) Escolher t
k+1
tal que 0 < t
k+1
< t
k
, k k + 1 e voltar para (1).
Para obter x
k
, no Passo 1 do algoritmo, usamos um metodo qualquer
para minimizar fun c oes com a restri c ao x T. Quase sempre, se tratar a de
um algoritmo iterativo, e o ponto inicial recomend avel nesse caso ser a x
k1
,
embora diversas estrategias de acelera c ao possam ser implementadas. Es-
tritamente falando, no problema penalizado (10.1.2) aparecem as restri c oes
c
i
(x) > 0 alem de x T. No entanto, como a fun c ao objetivo de (10.1.2)
tende a innito quando x tende ` a fronteira, estamos autorizados a supor
que um algoritmo irrestrito (ou melhor, restrito apenas a T), n ao sentir a a
menor atra c ao por pontos muito pr oximos ao contorno, e que, portanto,
permanecer a tambem afastado de pontos externos.
`
As vezes, pode ser
necess aria alguma modica c ao leve do algoritmo irrestrito para garan-
tir a permanencia no interior de . Sabemos, por outro lado, que encontrar
minimizadores globais costuma ser muito difcil e que, usando metodos it-
erativos, n ao poderemos, de fato, atingir exatamente a solu c ao de (10.1.2).
Por isso, na pr atica, x
k
ser a apenas uma solu c ao aproximada de (10.1.2).
As propriedades do metodo, no entanto, emergem de maneira poderosa e
surpreendentemente simples quando consideramos sua vers ao exata.
A seq uencia de par ametros de penalidade t
k
deve tender a 0. Uma
regra m agica e fazer t
1
= 1 e t
k+1
= t
k
/10 para todo k. Para problemas
n ao muito complicados, pode-se tentar resolver um unico subproblema com
um par ametro muito pequeno, na expectativa que a solu c ao computada
esteja pr oxima da solu c ao do problema original. Esta estrategia e chamada
shortcut (atalho) em [69] e, ` as vezes, pode ser fragorosamente ineciente.
Existem dois exemplos cl assicos de fun c oes barreira: a fun c ao barreira
174 CHAPTER 10. PENALIDADE
inversa
B(x) =
m
i=1
1
c
i
(x)
(10.1.3)
e a fun c ao barreira logartmica
B(x) =
m
i=1
log (c
i
(x)) . (10.1.4)
A fun c ao (10.1.4) pode assumir valores negativos, e portanto, n ao cumpre
o axioma (ii). Porem, no caso em que e limitado, veremos que trabalhar
com ela e equivalente a faze-lo com uma outra fun c ao que sim satisfaz os ax-
iomas. Observemos, primeiro, que quando o interior de e limitado, ent ao
a fun c ao (10.1.4) e limitada inferiormente.
Exerccio 10.1: Provar a arma c ao anterior.
Seja M IR tal que B(x) > M para todo x
e consideremos
B(x) =
m
i=1
log (c
i
(x)) M . (10.1.5)
,
coincide com
Minimizar f(x) +tB(x) tM
sujeita a x
,
que e equivalente a
Minimizar f(x) +tB(x)
sujeita a x
.
Assim, a fun c ao logartmica (10.1.4) pode ser usada como barreira sem nen-
hum prejuzo.
De agora em diante, denimos
Q(x, t) = f(x) +tB(x) , (10.1.6)
e passamos a provar as propriedades fundamentais do Algoritmo 10.1.1.
10.1. M
. (10.1.12)
Ent ao, b
k
b
k+1
para todo k.
Agora, seja
b = minf(x) [ x .
Claramente,
b
0
b
1
b
k
b
k+1
b .
Como b
k
e uma seq uencia decrescente e inferiormente limitada, e conver-
gente:
lim
k
b
k
=
b . (10.1.13)
Se
b ,= b, ent ao
b > b.
Seja x
,
f(x) <
b
1
2
(
b b) . (10.1.14)
Agora, como 0 < t
k+1
< t
k
e B(x) 0 para x
, temos
0 < t
k+1
B(x) < t
k
B(x)
para todo x
. Portanto, lim
k
t
k
B(x) = 0 para x
. Assim, tomemos
x
) <
1
4
(
b b) . (10.1.15)
Ent ao, por (10.1.14) e (10.1.15), para k sucientemente grande,
Q(x
, t
k
) <
b
1
4
(
b b) <
b ,
o que contradiz (10.1.12)-(10.1.13). Portanto,
b = b.
Agora, seja K um subconjunto innito de ^ tal que
lim
kK
x
k
= x
10.1. M
).
Ent ao, a seq uencia (f(x
k
) f(x
)) +t
k
B(x
k
)
kK
n ao pode convergir
a zero, o que contradiz o fato de que b
k
b 0. Logo, x = x
ou x ,= x
mas f( x) = f(x
= (0 1)
T
. Vamos considerar a fun c ao barreira
B(x) = log(x
1
).
Ent ao
Q(x, t) = (x
1
+ 1)
2
+ (x
2
1)
2
t log(x
1
).
Portanto,
x
Q(x, t) =
_
2(x
1
+ 1)
t
x
1
2(x
2
1)
_
e
2
xx
Q(x, t) =
_
2 +
t
x
2
1
0
0 2
_
.
Os pontos estacion arios com x
1
> 0 s ao da forma x =
_
1+
1+2t
2
1
_
T
,
t > 0 e ent ao
2
Q( x, t) =
_
2 +
2t
t+1
1+2t
0
0 2
_
.
Assim, como lim
t0
2t
t+1
1+2t
= , segue que o n umero de condi c ao da ma-
triz Hessiana
2
Q(x, t) tende a innito quando t 0, o que retrata alge-
bricamente a diculdade crescente dos subproblemas. Geometricamente, as
178 CHAPTER 10. PENALIDADE
curvas de nvel das fun c oes Q cam cada vez mais alongadas, o que torna
mais e mais imprecisa a determina c ao do minimizador.
O ponto de vista tradicional (ate meados da decada de 80) era que as
restri c oes incorporadas na fun c ao objetivo deviam ser as mais complicadas,
pela diculdade intrnseca a sua manipula c ao direta. Penalizar em rela c ao
a restri c oes simples teria sido considerado um sacrilegio. A apari c ao dos
metodos de pontos interiores em programa c ao linear mostrou que a situa c ao
e bem mais confusa, pois muitos desses metodos podem ser interpretados
como penalidade logartmica em rela c ao ` as restri c oes extremamente sim-
ples x
i
0. Consideremos o problema de minimiza c ao com restri c oes de
igualdade na sua forma padr ao :
Minimizar f(x)
sujeita a Ax = b , x 0 ,
(10.1.17)
onde A IR
mn
, m n e posto(A) = m.
Utilizando a fun c ao barreira logartmica, temos o seguinte subproblema,
apenas com restri c oes lineares de igualdade:
Minimizar f(x) t
n
i=1
log(x
i
)
sujeita a Ax = b .
(10.1.18)
As condi c oes de otimalidade de (10.1.18) correspondem a um sistema
n ao-linear com n +m equa c oes e n +m vari aveis:
f(x) t
_
_
_
_
1
x
1
.
.
.
1
xn
_
_
_
_
+A
T
y = 0
Ax = b .
(10.1.19)
A matriz Jacobiana do sitema (10.1.19) e dada por
_
2
f(x) +t X
2
A
T
A 0
_
(10.1.20)
onde X = diag(x
1
, . . . , x
n
). O n umero de condi c ao desta matriz cresce
quando t 0 e alguma componente x
i
, i = 1, . . . , n se aproxima de zero.
O mal-condicionamento inerente ao metodo de barreira pode ser contor-
nado com a seguinte mudan ca de vari aveis:
z
i
=
t
x
i
, i = 1, . . . , n .
10.2. PENALIDADE EXTERNA 179
Ent ao (10.1.19) pode ser reescrito como
f(x) z + A
T
y = 0
Ax = b
x
i
z
i
t = 0 , i = 1, . . . , n .
(10.1.21)
O sistema aumentado (10.1.21), com 2n+mequa c oes e 2n+minc ognitas,
tem o seguinte Jacobiano:
_
_
_
2
f(x) A
T
I
A 0 0
Z 0 X
_
_
_ (10.1.22)
onde Z = diag(z
1
, . . . , z
n
). Alem de (10.1.22) independer de t, se tivermos
complementariedade estrita, isto e, se x
i
z
i
= 0 com x
i
,= 0 ou z
i
,= 0, ent ao
(10.1.22) tem posto completo (um bom exerccio para o leitor). O sistema
(10.1.21) s o ser a mal condicionado se o problema original (10.1.17) o for.
Assim, se ao inves de trabalharmos com (10.1.18), resolvermos (10.1.21),
quando t = 0 teremos as condi c oes Karush-Kuhn-Tucker do problema origi-
nal (10.1.17). No caso em que (10.1.17) e mal-condicionado, (10.1.21) pode
ser resolvido monitorando-se a homotopia obtida quando t 0, atraves de
alguma varia c ao do metodo de Newton inexato para sistemas n ao lineares.
Em programa c ao linear, a homotopia (10.1.21) e o fundamento dos metodos
primais-duais, que, na decada dos 90 s ao os algoritmos de pontos interiores
com maior prestgio para esse problema.
10.2 Penalidade externa
Os metodos de penalidade externa ou, simplesmente, penalidade, podem
ser aplicados ao problema de otimiza c ao em seu formato mais geral:
Minimizar f(x)
sujeita a x
1
, x
2
,
(10.2.1)
onde
1
e
2
s ao subconjuntos arbitr arios de IR
n
. Suponhamos, como antes,
que (10.2.1) admite minimizador global.
O princpio e a utiliza c ao de uma fun c ao contnua que se anula no
conjunto a ser penalizado e e positiva fora dele. Assim, se no problema
(10.2.1) quisermos penalizar em rela c ao ao conjunto
1
, basta escolhermos
180 CHAPTER 10. PENALIDADE
P : IR
n
IR, P C
0
(IR
n
) tal que
P(x)
_
= 0 se x
1
> 0 se x ,
1
.
(10.2.2)
Com a introdu c ao de um par ametro 0, temos o seguinte problema
penalizado associado a (10.2.1):
Minimizar f(x) + P(x)
sujeita a x
2
.
(10.2.3)
Quando torna-se muito grande, a viola c ao das restri c oes ca cada vez
mais cara, de tal forma que as solu c oes dos problemas (10.2.3), para uma
seq uencia controlada de aumentos em , produz uma seq uencia cujos pontos
de acumula c ao resolvem o problema original, conforme provaremos adiante.
Sistematizando as ideias acima em forma algortmica, com a fun c ao de
penalidade P obedecendo (10.2.2), temos:
Algoritmo 10.2.1 - Penalidade externa.
Dados
1
0, x
0
IR
n
, k = 1.
(1) Calcular x
k
x(
k
) IR
n
como a solu c ao de
Minimizar f(x) +
k
P(x)
sujeita a x
2
.
(10.2.4)
(2) Escolher
k+1
>
k
, k k + 1 e voltar para (1).
De maneira an aloga ao que ocorre com o Algoritmo 10.1.1, na seq uencia
x
k
gerada pelo Algoritmo 10.2.1 os pontos s ao desvinculados, e e ape-
nas aconselh avel que x
k1
seja o ponto inicial para o algoritmo que resolve
(10.2.4). O monitoramento dos par ametros penalizadores e, em geral, feito
da seguinte forma:
1
= 1 e
k
= 10
k1
. Da mesma forma que em pe-
nalidade interna, a estrategia shortcut pode ser usada, tomando
1
muito
grande (por exemplo, 10
24
) e resolvendo um unico problema do tipo (10.2.4).
Infelizmente, isso nem sempre funciona.
Vamos apresentar alguns exemplos de fun c oes de penalidade. Se o con-
junto factvel a ser penalizado e dado por:
1
= x IR
n
[ h(x) = 0 ,
onde h : IR
n
IR
m
, podemos tomar
P(x) =
m
i=1
h
i
(x)
2
= |h(x)|
2
2
.
10.2. PENALIDADE EXTERNA 181
Se abrirmos m ao da diferenciabilidade, podemos denir
P(x) =
_
m
i=1
h
i
(x)
2
= |h(x)|
2
,
ou ainda
P(x) =
m
i=1
[h
i
(x)[ = |h(x)|
1
.
Para
1
= x IR
n
[ c(x) 0 ,
onde c : IR
n
IR
p
, temos
P(x) =
p
i=1
(min0 , c
i
(x))
2
.
Agora, se
1
= x IR
n
[ h(x) = 0 , c(x) 0 ,
onde h : IR
n
IR
m
e c : IR
n
IR
p
, a fun c ao P pode ser dada por:
P(x) =
m
i=1
h
i
(x)
2
+
p
i=1
(min0, c
i
(x))
2
.
Quando
1
= x IR
n
[ g(x) 0 ,
com g : IR
n
IR
p
, e usual a nota c ao
g
i
(x)
+
= max0 , g
i
(x) , i = 1 , . . . , p
e ent ao g(x)
+
e o vetor p-dimensional cuja i-esima componente e g
i
(x)
+
.
Assim, podemos considerar uma classe geral de fun c oes de penalidade
P(x) = (g(x)
+
) (10.2.5)
onde : IR
p
IR e uma fun c ao contnua denida de forma a satisfazer
(10.2.2). Por exemplo, (y) =
1
2
|y|
2
2
ou (y) = y
T
Ay, onde A IR
pp
e
simetrica denida positiva.
Denotando a fun c ao objetivo do problema penalizado por
T(x, ) = f(x) + P(x) , (10.2.6)
182 CHAPTER 10. PENALIDADE
temos as seguintes propriedades:
Lema 10.2.2
Seja x
k
a seq uencia gerada pelo Algoritmo 10.2.1.
Se x
k
e a solu c ao global de (10.2.4), ent ao
T(x
k
,
k
) T(x
k+1
,
k+1
) (10.2.7)
P(x
k+1
) P(x
k
) (10.2.8)
f(x
k
) f(x
k+1
) . (10.2.9)
Prova: Como para todo k temos 0
k
k+1
e x
k
e minimizador global
de (10.2.4) temos:
T(x
k
,
k
) = f(x
k
) +
k
P(x
k
)
f(x
k+1
) +
k
P(x
k+1
)
f(x
k+1
) +
k+1
P(x
k+1
)
= T(x
k+1
,
k+1
) .
Agora,
T(x
k
,
k
) = f(x
k
) +
k
P(x
k
) f(x
k+1
) +
k
P(x
k+1
) (10.2.10)
e
T(x
k+1
,
k+1
) = f(x
k+1
) +
k+1
P(x
k+1
) f(x
k
) +
k+1
P(x
k
) .
(10.2.11)
Subtraindo (10.2.11) de (10.2.10) temos
(
k
k+1
) P(x
k
) (
k
k+1
) P(x
k+1
)
e como
k
<
k+1
, segue que P(x
k+1
) P(x
k
).
Finalmente, usando (10.2.8) temos
f(x
k
) +
k
P(x
k
) f(x
k+1
) +
k
P(x
k+1
) f(x
k+1
) +
k
P(x
k
)
ou seja, f(x
k
) f(x
k+1
) e a prova est a completa. QED
Temos ainda uma outra rela c ao para as seq uencias de valores das fun c oes
objetivo original e penalizada, de onde se deduz que, se x
k
n ao e solu c ao
de (10.2.1), necessariamente deve ser um ponto externo a .
10.2. PENALIDADE EXTERNA 183
Lema 10.2.3
Se x
) . (10.2.12)
Como conseq uencia, x
k
se, e somente se, e uma solu c ao global de
(10.2.1).
Prova: Como
k
0, P(x) 0 para todo x IR
n
e x
k
e minimizador
global de (10.2.4) temos:
f(x
k
) f(x
k
) +
k
P(x
k
) f(x
) +
k
P(x
) = f(x
) .
QED
No que se segue, apresentamos o resultado cl assico de convergencia dos
metodos de penalidade externa.
Teorema 10.2.4
Seja x
k
a seq uencia de minimizadores globais de (10.2.4), gerada pelo
Algoritmo 10.2.1 com
k
. Ent ao, todo ponto limite de x
k
e mini-
mizador global do problema (10.2.1).
Prova: Seja K um subconjunto innito de ^ tal que lim
kK
x
k
= x. Pela
continuidade de f temos
lim
kK
f(x
k
) = f( x) . (10.2.13)
Seja f
= minf(x) [ x
1
, x
2
.
Pelos Lemas 10.2.2 e 10.2.3, a seq uencia T(x
k
,
k
) e n ao-decrescente e
limitada superiormente por f
. Ent ao,
lim
kK
T(x
k
,
k
) = p
= f
. (10.2.14)
Subtraindo (10.2.13) de (10.2.14) temos:
lim
kK
k
P(x
k
) = p
f( x) . (10.2.15)
Como P(x
k
) 0 e
k
, por (10.2.15) segue que
lim
kK
P(x
k
) = 0 .
184 CHAPTER 10. PENALIDADE
Pela continuidade de P, P( x) = 0, ou seja, x
1
. Para provarmos que
x e otimo, basta notarmos que pelo Lema 10.2.3, f(x
k
) f
e ent ao
f( x) = lim
kK
f(x
k
) f
,
o que completa a prova. QED
Vamos nos concentrar agora na fun c ao de penalidade externa mais pop-
ular, que consiste em elevar ao quadrado cada restri c ao violada. Para xar
ideias, pensaremos apenas na minimiza c ao com restri c oes de igualdade:
Minimizar f(x) sujeita a h(x) = 0,
onde h : IR
n
IR
m
e todas as fun c oes tem derivadas contnuas. A fun c ao
de penalidade ser a
P(x) =
1
2
|h(x)|
2
2
.
Portanto, a condi c ao necess aria de otimalidade em x
k
e
f(x
k
) +h
(x
k
)
T
k
h(x
k
) = 0.
Logo, o vetor
k
h(x
k
) desempenha, em rela c ao a x
k
, o mesmo papel que
os multiplicadores de Lagrange na solu c ao tem em rela c ao a x
. Essa pro-
priedade, que provaremos rigorosamente a seguir, autoriza o uso de
k
h(x
k
)
como estimador dos multiplicadores, o que, como se ver a na pr oxima se c ao,
tem sua utilidade.
Teorema 10.2.5
Suponhamos que o Algoritmo 10.2.1 seja aplicado ao problema (10.2.1)
com
1
= x IR
n
[ h(x) = 0, h : IR
n
IR
m
, h C
1
,
2
IR
n
com a fun c ao
de penalidade P(x) =
1
2
|h(x)|
2
2
. Correspondendo ` a seq uencia x
k
gerada
por este algoritmo, denimos
k
=
k
h(x
k
). Se x
k
x
, onde x
e solu c ao
global de (10.2.1) e ponto regular, ent ao
k
, onde
e o vetor dos
multiplicadores de Lagrange associado a x
.
Prova: O subproblema (10.2.4), sob as hip oteses acima, converte-se no
seguinte problema irrestrito:
Minimizar f(x) +
k
1
2
|h(x)|
2
2
. (10.2.16)
Portanto, anulando o gradiente, temos:
f(x
k
) +h
(x
k
)
T
k
= 0 . (10.2.17)
10.2. PENALIDADE EXTERNA 185
Como x
IR
m
tal que
f(x
) +h
(x
)
T
= 0 . (10.2.18)
Ou seja,
= (h
(x
)
T
)
f(x
) , (10.2.19)
onde (h
(x
)
T
)
= (h
(x
)h
(x
)
T
)
1
h
(x
). Logo, como h C
1
, para k
sucientemente grande, h
(x
k
) tem posto m e, por (10.2.17), segue que
k
h(x
k
) = (h
(x
k
)
T
)
f(x
k
) . (10.2.20)
Portanto, passando (10.2.20) ao limite quando k , pela continuidade
de [h
(x)]
numa vizinhan ca de x
k
= lim
k
k
h(x
k
) =
.
QED
Exerccio 10.2: Generalizar o Teorema 10.2.5 para desigualdades.
Infelizmente, de maneira an aloga aos metodo de barreiras, a diculdade
em se resolver os subproblemas cresce com o aumento do par ametro penal-
izador . Vejamos como isso acontece no exemplo (10.1.16), para o qual o
problema penalizado pode ser dado por:
Minimizar T(x, ) = (x
1
+ 1)
2
+ (x
2
1)
2
+ P(x
1
, x
2
) , (10.2.21)
onde P(x
1
, x
2
) =
_
0 se x
1
0
x
2
1
se x
1
< 0 .
Como a fun c ao objetivo de (10.2.21) e convexa, basta determinar os
pontos em que
x
T(x, ) =
_
2(x
1
+ 1) + 2x
1
2(x
2
1)
_
se anula, obtendo x
1
=
1
1+
, x
2
= 1 e ent ao lim
x
1
= 0. Agora,
2
xx
T(x, ) =
_
2 + 2 0
0 2
_
,
ou seja, cond(
2
xx
T(x, )) quando . Numericamente, o termo
penalizador absorve o termo relativo ` a fun c ao objetivo original.
Vamos agora analisar a Hessiana do problema penalizado associado ao
problema geral de minimiza c ao com restri c oes de igualdade:
Minimizar f(x)
sujeita a h(x) = 0 ,
(10.2.22)
186 CHAPTER 10. PENALIDADE
onde h : IR
n
IR
m
e f, h C
2
(IR
n
). Se P(x) =
1
2
h(x)
T
h(x), temos
T(x, ) = f(x) +
2
h(x)
T
h(x) (x()). Ent ao, se x x(), temos
(x) = f(x) + h
(x)
T
h(x)
e
2
(x) =
2
f(x) + [h
(x)
T
h
(x) +
m
i=1
h
i
(x)
2
h
i
(x)] . (10.2.23)
Se x
IR
n
e uma solu c ao regular de (10.2.22) e
IR
m
e o multipli-
cador de Lagrange associado, pelo Teorema 10.2.5 sabemos que
lim
h(x()) =
.
Ent ao, para sucientemente grande,
2
(x)
2
f(x) +
m
i=1
2
h
i
(x) + h
(x)
T
h
(x) .
Embora
2
f(x) +
m
i=1
2
h
i
(x) independa de , o termo dominante
h
(x)
T
h
(x)
T
h(x) = 0 . (10.2.25)
Fazendo a mudan ca de vari aveis y = h(x), o sistema (10.2.25) se converte
em
f(x) +h
(x)
T
y = 0
h(x)
y
= 0
(10.2.26)
cuja Jacobiana, membro da esquerda da seguinte express ao, verica
_
2
f(x) h
(x)
T
h
(x)
1
I
_
_
2
f(x) h
(x)
T
h
(x) 0
_
. (10.2.27)
10.2. PENALIDADE EXTERNA 187
Assim, no limite, o Jacobiano (10.2.27) n ao e, necessariamente, mal-
condicionado. A instabilidade proveniente do par ametro penalizador deixa
de existir, e (10.2.27) s o ser a mal-condicionado se h
y
T
y,
o problema primitivo n ao seria minimiz a-la pois
2
yy
T(x, y) =
1
I < 0.
Temos, portanto, uma motiva c ao para pensarmos numa abordagem um
pouco diferente da penalidade externa, que ser a tratada na pr oxima se c ao.
Para nalizarmos a an alise dos metodos de penalidade externa, vamos
considerar as chamadas fun c oes de penalidade exatas, em que a solu c ao do
problema penalizado e exatamente a solu c ao do problema original para um
valor nito do par ametro penalizador. Assim, com estas fun c oes n ao seria
preciso resolver uma seq uencia innita de subproblemas. Infelizmente, a
maioria da fun c oes de penalidade exatas s ao n ao-diferenci aveis na solu c ao.
Um exemplo diferenci avel, mas de interesse sobretudo te orico devido a sua
complexidade, e a fun c ao de introduzida por Fletcher ([67], [68]) que, para
o problema (10.2.22), e
T(x, ) = f(x) h(x)
T
(x) +
2
h(x)
T
h(x) ,
onde (x) = (h
(x)
T
)
f(x).
A fun c ao de penalidade exata n ao diferenci avel mais conhecida e baseada
na norma | |
1
e, para o problema (10.2.22), toma a forma
P(x) =
m
i=1
[h
i
(x)[ = |h(x)|
1
,
portanto
T(x, ) = f(x) + |h(x)|
1
. (10.2.28)
188 CHAPTER 10. PENALIDADE
A fun c ao (10.2.28) tem derivadas descontnuas em todos os pontos factveis,
e portanto, uma solu c ao x
IR
m
e o vetor dos
multiplicadores de Lagrange correspondente, ent ao, para > max[(
)
i
[ , i =
1 , . . . , m, x
(x)
T
y = 0
h(x) = 0 .
(10.3.2)
Se (x
T
, y
T
)
T
satisfaz (10.3.2), ent ao, denindo a fun c ao Lagrangiana
da maneira usual,
(x, y) = f(x) +h(x)
T
y,
temos
(x
, y
) = 0 .
Infelizmente, x
), conforme ilustra
o seguinte exemplo:
Minimizar x
3
sujeita a x + 1 = 0 ,
onde x
= 1, y
= 3, (x, y
) = x
3
3(x + 1),
(x, y
) = 3x
2
3,
(x, y
) = 6x e portanto
(x
, y
) = 6 < 0.
Agora, as condi c oes necess arias de otimalidade de segunda ordem estab-
elecem que a Hessiana, em rela c ao a x, da fun c ao Lagrangiana e semidenida
190 CHAPTER 10. PENALIDADE
positiva no n ucleo de h
(x
(x
)
T
).
Isto nos sugere que um subproblema irrestrito conveniente pode ser obtido se
as caractersticas de estacionariedade de x
(x
)
T
. Mostraremos abaixo
que esse e precisamente o efeito produzido acrescentando-se ` a fun c ao La-
grangiana o termo
2
|h(x)|
2
2
, > 0. Veremos que, nesse caso, existe
nito para o qual a fun c ao Lagrangiana aumentada e localmente convexa
em torno de (x
T
, y
T
)
T
. Antes vamos precisar do seguinte lema:
Lema 10.3.1
Seja G = G
T
IR
nn
tal que z
T
Gz > 0 para todo z ^(A), z ,= 0,
A IR
mn
.
Existe
0 tal que G+A
T
A > 0 para todo
.
Prova: Suponhamos que, para todo k ^, exista x
k
IR
n
, |x
k
| = 1, tal
que
x
T
k
(G+kA
T
A)x
k
0 . (10.3.3)
Pela compacidade dos x
k
s, existe K subconjunto innito de ^ tal que
lim
kK
x
k
= x. Como x
k
A
T
Ax
k
0 para todo k, por (10.3.3) segue que
x
T
A
T
A x = 0, ou seja, x ^(A). Ent ao, por (10.3.3), x
T
G x 0, com
x ^(A), o que e uma contradi c ao. QED
Agora mostraremos que e suciente um valor nito de para transfor-
mar x
IR
m
e o vetor dos multiplicadores
correspondente, ent ao existe 0 tal que a fun c ao
(x) = f(x) +y
T
h(x) +
2
|h(x)|
2
2
(10.3.4)
tem um minimizador local estrito em x
para todo .
Prova: Temos que
(x) = f(x) + h
(x)
T
y
+ h
(x)
T
h(x). Portanto,
10.3. LAGRANGIANO AUMENTADO 191
(x
) = 0, ou seja, x
(x) =
2
f(x) +
m
i=1
y
2
h
i
(x) + (h
(x)
T
h
(x) +
m
i=1
h
i
(x)
2
h
i
(x)) .
Logo,
2
(x
) =
2
(x
) + h
(x
)
T
h
(x
(x)
T
y + h
(x)
T
h(x) = 0
ou
f(x) +h
(x)
T
(y + h(x)) = 0 .
Por compara c ao direta com (10.3.2) e, tambem, amparados pelo Teo-
rema 10.2.5, deduzimos que y + h(x) pode ser uma estimativa razo avel
para y
(x
k
)
T
(y
k
+
k
h(x
k
)) = 0. No entanto, a condi c ao h(x
k
) = 0
pode estar sendo muito mal-satisfeita. Por isso, no Passo 2, e incremen-
tado o par ametro de penalidade, depois de um monitoramento de h(x).
Como rascunhamos numa se c ao anterior, o metodo de penalidade pode ser
interpretado como uma maneira de acompanhar a homotopia
f(x()) +
2
|h(x)|
2
2
= mnimo,
que desenha uma curva x() em IR
n
, culminando na solu c ao do problema
original quando = . Pela equivalencia (10.3.6), para cada y IR
m
,
temos uma curva homot opica diferente, dada por
f(x()) +h
(x)
T
y +
2
|h(x)|
2
2
= mnimo,
que, tambem, termina em x
( x)
tem posto completo m. Assim, podemos considerar uma parti c ao em m
componentes dependentes ou b asicas e nm componentes independentes ou
n ao-b asicas. As componentes b asicas correspondem a uma sub-matriz n ao
singular de h
( x) = (B N), com B IR
mm
, B n ao-singular, N IR
m(nm)
e
x = ( x
T
B
x
T
N
)
T
. Portanto, h( x) = h( x
B
, x
N
) = 0 e, localmente, vale o Teo-
rema da Fun c ao Implcita: existem vizinhan cas V
1
IR
nm
e V
2
IR
m
de
x
N
e x
B
respectivamente, e uma fun c ao : V
1
V
2
tais que C
1
(V
1
),
( x
N
) = x
B
, h((x
N
), x
N
) = 0 para todo x
N
V
1
, e
(x
N
) =
_
h
x
B
(x
B
, x
N
)
_
1
h
x
N
(x
B
, x
N
)
para todo x
N
V
1
.
Desta forma, se nos restringssemos aos pares (x
B
, x
N
) para os quais o sis-
tema h(x
B
, x
N
) = 0 e equivalente a x
B
= (x
N
) (o que inclui os pares
(x
B
, x
N
) tais que x
N
V
1
e x
B
= (x
N
)) o problema (11.1.1) seria equiva-
lente a
Minimizar (x
N
) f((x
N
), x
N
)
sujeita a x
N
IR
nm
.
(11.1.2)
Com isto estamos simplesmente formalizando o procedimento mais obvio
para minimizar fun c oes com restri c oes de igualdade: colocar algumas vari aveis
em fun c ao das outras e substituir na fun c ao objetivo. O problema e que, na
maioria dos casos, n ao conhecemos a forma explcita da fun c ao .
11.1. RESTRIC
OES DE IGUALDADE 197
Usando a regra da cadeia, podemos calcular . Assim:
(x
N
) =
f
x
B
(x
B
, x
N
)
(x
N
) +
f
x
N
(x
B
, x
N
)
para todo x
N
V
1
. Em particular, para x
N
= x
N
,
( x
N
) =
f
x
B
( x
B
, x
N
)(B
1
N) +
f
x
N
( x
B
, x
N
).
Logo, transpondo a express ao acima:
( x
N
) = N
T
B
T
x
B
f( x) +
x
N
f( x)
= ( N
T
B
T
I )
_
x
B
f( x)
x
N
f( x)
_
= ( (B
1
N)
T
I ) f( x) .
A express ao ( x) calculada acima e chamada o gradiente reduzido gen-
eralizado do problema (11.1.1), no ponto factvel x, relativo ` a parti c ao
(B N). As dire c oes d IR
nm
que formam um angulo obtuso com ( x)
s ao dire c oes de descida para essa fun c ao. Se a vizinhan ca V
1
fosse igual a
IR
nm
, a aplica c ao de um metodo de minimiza c ao sem restri c oes a (11.1.2)
estaria plenamente justicada. Como freq uentemente V
1
,= IR
nm
, algumas
providencias devem ser tomadas. Com base nos nossos conhecimentos de
minimiza c ao irrestrita, estabelecemos o seguinte algoritmo conceitual para
o metodo do tipo GRG aplicado ao problema (11.1.1):
Algoritmo 11.1.1 - GRG para igualdades com busca linear.
Sejam (0, 1), ( 10
4
> 0, (0, 1) e x
0
IR
n
tal que h(x
0
) = 0.
Dado x
k
IR
n
tal que h(x
k
) = 0, x
k+1
e obtido da seguinte maneira:
Passo 1. Escolher uma parti c ao h
( x
k
) = (B
k
N
k
), com B
k
IR
mm
n ao
singular. Ent ao x
k
=
_
x
B
k
x
N
k
_
.
Calcular (x
N
k
) = ( (B
1
k
N
k
)
T
I )f(x
k
). Se (x
N
k
) = 0, parar.
Passo 2. Escolher d
k
IR
nm
tal que
|d
k
|
2
|(x
N
k
)|
2
(11.1.3)
e
(x
N
k
)
T
d
k
|(x
N
k
)|
2
|d
k
|
2
. (11.1.4)
198 CHAPTER 11. GRADIENTE REDUZIDO GENERALIZADO
Passo 3. Come car o backtracking com t = 1.
Passo 4. Calcular z = ( x
N
k
+td
k
) IR
m
, resolvendo o sistema (geralmente
n ao linear), de mm,
h(z, x
N
k
+td
k
) = 0. (11.1.5)
Se n ao e possvel resolver (11.1.5) (o que certamente acontecer a se esse
sistema n ao tem solu c ao), reduzir d
k
(por exemplo, d
k
d
k
/2), e voltar ao
Passo 3.
Passo 5. Se
f(z, x
N
k
+td
k
) f(x
B
k
, x
N
k
) +t(x
N
k
)
T
d
k
, (11.1.6)
denir x
N
k+1
= x
N
k
+ td
k
, x
B
k+1
= z = ( x
N
k
+ td
k
) e dar por terminada a
itera c ao k.
Se (11.1.6) n ao se verica, escolher um novo t [0.1t, 0.9t] e retornar ao
Passo 4.
No Passo 2 do Algoritmo 11.1.1, diferentes escolhas para d
k
produzem os
diferentes metodos do tipo GRG. Embora a dire c ao de m axima descida
d
k
= (x
N
k
) seja uma escolha possvel, alternativas quase-Newton ou o
pr oprio metodo de Newton nas coordenadas reduzidas poderiam ser con-
sideradas. O c alculo de ( x
N
k
+ td
k
), no Passo 3, cuja existencia numa
vizinhan ca de x
N
k
e assegurada pelo Teorema da Fun c ao Implcita, e o ponto
crucial dos metodos. De fato, calcular (x
N
k
+ td
k
) corresponde a resolver
o sistema (11.1.5). Para resolver esse sistema, usa-se qualquer metodo lo-
cal para sistemas n ao lineares. (Para xar ideias suponhamos que usamos
o metodo de Newton.) Agora, (11.1.5) pode n ao ter solu c ao, ou pode ser
que, depois de um n umero razo avel de itera c oes de Newton, n ao tenha sido
possvel chegar a uma solu c ao com uma precis ao adequada. Em ambos casos,
o algoritmo reduz a dire c ao d
k
e recome ca o backtracking. Teoricamente,
este processo necessariamente termina, porque, mais tarde ou mais cedo,
x
N
k
+ td
k
entra na vizinhan ca V
1
. Porem, devido ` a impaciencia em esperar
um n umero sucientemente grande de itera c oes de Newton, ou a problemas
de convergencia desse metodo, e possvel que o tamanho de td
k
chegue a ser
t ao pequeno, que a condi c ao (11.1.3) deixe de ser satisfeita. Nesse caso, o
diagn ostico e que nossa escolha da parti c ao (B
k
N
k
) foi infeliz, no sentido da
vizinhan ca V
1
, onde a fun c ao existe, ser muito pequena. Provavelmente,
neste caso, B
k
e quase-singular. O recomend avel, e tentar uma parti c ao
diferente, mas o sucesso tambem n ao e garantido.
Um problema de ordem pr atica que aparece na resolu c ao do sistema (11.1.5)
e a determina c ao de um bom ponto inicial z
0
para usar Newton, ou o algo-
ritmo escolhido para resolver sistemas n ao lineares neste caso. Muitas vezes,
11.1. RESTRIC
OES DE IGUALDADE 199
tomar z
0
= x
B
k
e sucientemente bom, mas n ao e difcil arquitetar uma es-
trategia melhor. A ideia e seguir a mesma losoa do passo corretor no
metodo preditor-corretor para equa c oes diferenciais. Um ponto inicial sen-
sato na resolu c ao de (11.1.5) e o ponto preditor denido pela aproxima c ao
linear para h(x) = 0 em torno de x
k
:
h
(x
k
)(x x
k
) +h(x
k
) = 0
ou seja,
( B
k
N
k
)
_
z
0
x
B
k
td
k
_
+h(x
k
) = 0,
e ent ao
z
0
= x
B
k
B
1
k
(N
k
d
k
+h(x
k
)) .
O Algoritmo 11.1.1, aplicado ao caso m = 0 (sem restri c oes) e globalmente
convergente, como vimos em um captulo anterior. A garantia dessa con-
vergencia global e fornecida pelas condi c oes (11.1.3) e (11.1.4). Se a mesma
fun c ao estivesse bem denida para todo x
N
IR
nm
a mesma teoria de
convergencia se aplicaria no problema (11.1.1), j a que, globalmente, o prob-
lema consistiria em minimizar, em IR
nm
, a ( unica) fun c ao . Por isso,
se justica exigir, tambem neste caso, as condi c oes (11.1.3) e (11.1.4). No
entanto, a necessidade de mudar de base B
k
em determinadas situa c oes
impede que a an alise de convergencia sem restri c oes possa ser estendida de
maneira trivial ao caso geral. Uma complica c ao adicional e que, estritamente
falando, como a solu c ao de (11.1.5) e obtida por um metodo iterativo, deve-
mos considerar que a avalia c ao de est a sujeita a um erro, cuja inuencia
deveramos contemplar. Uma discuss ao sobre convergencia do metodo GRG
pode ser encontrada em Sargent [181].
Cabe refor car que, essencialmente, cada avalia c ao da fun c ao objetivo do
problema irrestrito (11.1.1) tem o custo da resolu c ao do sistema n ao-linear
(11.1.5). Vemos portanto que os metodos do tipo GRG s ao vantajosos
quando o grau de n ao linearidade das restri c oes e pequeno.
`
A medida que a
n ao linearidade de h cresce, sua ec acia diminui. No entanto, GRG produz
uma seq uencia de pontos factveis para o problema original o que e muito in-
teressante para problemas onde e essencial conservar a factibilidade. Teorias
abrangentes das quais podem ser deduzidas implementa c oes promissoras de
metodos do tipo GRG podem ser encontradas em [142] e [144].
Exerccio 11.1: Simplicar o Algoritmo 11.1.1 para que resolva o problema
Minimizar f(x)
sujeita a Ax = b ,
200 CHAPTER 11. GRADIENTE REDUZIDO GENERALIZADO
onde A IR
mn
, m < n, posto(A) = m , f C
2
(R
n
), sugerindo escolhas
para d
k
e completando todos os detalhes.
Exerccio 11.2: Calcular, no Algoritmo 11.1.1, d
k
usando Newton. Denir,
cuidadosamente, o metodo Newton-GRG com busca linear para o prob-
lema (11.1.1).
11.2 GRG com desigualdades
O tratamento de restri c oes de desigualdade pelas estrategias do tipo GRG
procede atraves da transforma c ao do problema original ` a forma padr ao
Minimizar f(x)
sujeita a h(x) = 0 , l x u,
(11.2.1)
onde f : IR
n
IR, h : IR
n
IR
m
, f, h C
1
(IR
n
). De fato, qualquer
problema de minimiza c ao com restri c oes de igualdade e desigualdade pode
ser levado ` a forma (11.2.1) pela introdu c ao de vari aveis de folga nas restri c oes
do tipo c(x) 0.
Neste captulo introduziremos um metodo do tipo GRG para o problema
(11.2.1). Nossa estrategia ser a similar ` a usada no caso de (11.1.1). Com
efeito, um caso particular de (11.2.1) e quando m = 0. Nesse caso, o prob-
lema consiste em minimizar uma fun c ao com restri c oes de caixa.
E natural,
ent ao, que o algoritmo do tipo GRG aplicado a (11.2.1) tenha como caso par-
ticular um bom algoritmo para minimizar em caixas, quando as restri c oes de
igualdade n ao est ao presentes. Como no caso (11.1.1), o metodo funcionar a
gerando uma seq uencia de itera c oes factveis ( h(x
k
) = 0, l x
k
u).
Em particular, um ponto inicial x
0
factvel ser a necess ario. O problema de
encontrar esse ponto pode ser resolvido mediante a resolu c ao de
Minimizar |h(x)|
2
2
, sujeita a l x u. (11.2.2)
Este e um problema de minimizar em caixas, que, em princpio, poderia ser
resolvido pelo mesmo metodo usado para (11.2.1).
Uma das diculdades adicionais que aparecem devido ` as canaliza c oes em
(11.2.1) e que as vari aveis declaradas dependentes (b asicas) na itera c ao k
n ao podem estar nos limites l
i
ou u
i
. A raz ao para essa restri c ao e que
precisamos garantir que os pontos da forma ((x
N
), x
N
) estejam dentro das
canaliza c oes para pequenas varia c oes de x
N
numa vizinhan ca (V
1
) de x
N
k
. Se
uma vari avel b asica estivesse num limite, qualquer movimento das vari aveis
11.2. GRG COM DESIGUALDADES 201
n ao b asicas, por menor que fosse, poderia levar o ponto fora da caixa.
E
importante observar que essa e exatamente a condi c ao de regularidade do
conjunto = x IR
n
[h(x) = 0, l x u. Com efeito, se as colunas de
h
(x
k
) = (B
k
N
k
), com B
k
n ao singular e
l
i
< [x
k
]
i
< u
i
para todo i = 1, . . . , m. Nesse caso, x
k+1
e obtido da seguinte
maneira:
Passo 1. Escrevemos, como sempre, x
k
=
_
x
B
k
x
N
k
_
.
Calcular (x
N
k
) = ( (B
1
k
N
k
)
T
I )f(x
k
). Calcular H
k
, uma aprox-
ima c ao de
2
(x
N
k
) tal que |H
k
| M.
Passo 2. Iniciar o processo de encontrar uma regi ao de conan ca adequada
escolhendo
min
.
Passo 3. Resolver, aproximadamente, o problema quadr atico
Minimizar
1
2
(w x
N
k
)
T
H
k
(w x
N
k
) +(x
N
k
)
T
(w x
N
k
)
sujeita a l x u, |w x
N
k
|
.
(11.2.3)
Se x
N
k
e um ponto estacion ario do problema (11.2.3), parar.
Passo 4. Calcular z = (w) IR
m
, resolvendo o sistema (geralmente n ao
linear), de mm
h(z, w) = 0. (11.2.4)
Se n ao e possvel resolver (11.2.4) (o que certamente acontecer a se esse
sistema n ao tem solu c ao), ou se a solu c ao z encontrada est a fora dos limites
l e u, reduzir (por exemplo, /2), e voltar ao Passo 2.
Passo 5. Se
f(z, w) f(x
B
k
, x
N
k
) +[
1
2
(w x
N
k
)
T
H
k
(w x
N
k
) +(x
N
k
)
T
(w x
N
k
)]
(11.2.5)
denir x
N
k+1
= w, x
B
k+1
= z e dar por terminada a itera c ao k.
202 CHAPTER 11. GRADIENTE REDUZIDO GENERALIZADO
Se (11.2.5) n ao se verica, escolher um novo [0.1, 0.9|w x
N
k
|
] e
retornar ao Passo 3.
Todas as observa c oes feitas sobre o Algoritmo 11.1.1 s ao v alidas, tambem,
para este algoritmo. No Algoritmo 11.1.1 escolhemos, como metodo sem
restri c oes subjacente, um algoritmo de buscas lineares. No Algoritmo 11.2.1
escolhemos um metodo de regi oes de conan ca com norma porque esse
tipo de metodo se ajusta melhor ao formato de uma regi ao em forma de
caixa. A convergencia global desse metodo, quando n ao aparecem as re-
stri c oes h(x) = 0, dando um sentido preciso ` a resolu c ao aproximada
de (11.2.3), foi estudada num captulo anterior deste livro. Naturalmente,
tambem podamos ter usado como algoritmo subjacente no caso do problema
(11.1.1) um metodo de regi oes de conan ca. No entanto, as buscas lineares
s ao mais tradicionais quando se fala de GRG aplicado a minimiza c ao com
restri c oes de igualdade.
Exerccio 11.2: Escrever um algoritmo de gradiente reduzido para o prob-
lema
Minimizar f(x)
sujeita a Ax = b , x 0 ,
onde A IR
mn
, m < n, posto(A) = m , f C
2
(R
n
).
Exerccio 11.3: Escrever um algoritmo de gradiente reduzido para o prob-
lema
Minimizar f(x)
sujeita a Ax = b , l x u,
onde A IR
mn
, m < n, posto(A) = m , f C
2
(R
n
). Estudar o caso em
que f(x) = c
T
x.
Exerccio 11.4: Provar que, se x
N
k
e um ponto estacion ario de (11.2.3),
ent ao x
k
e um ponto estacion ario de (11.2.1).
11.3 Implementa cao computacional
Como comentamos na Se c ao 11.1, o funcionamento dos metodos do tipo
GRG depende fortemente de sua implementa c ao e a fama dos metodos se
deve, provavelmente, ao aproveitamento da experiencia Simplex para pro-
duzir bom software.
11.3. IMPLEMENTAC
AO COMPUTACIONAL 203
Embora sejam difceis de ser implementados, os metodos GRG mereceram a
aten c ao de equipes muito competentes. Atualmente, existem programas de-
senvolvidos com eciencia comprovada. Por exemplo, o pacote GRG2 [128],
desenvolvido em FORTRAN, usa uma implementa c ao robusta de BFGS
para obter a dire c ao d
k
. Este programa tambem possui uma op c ao para
trabalhar com metodos de gradientes conjugados com mem oria limitada, o
que permite lidar com milhares de vari aveis, mas a matriz Jacobiana das re-
stri c oes e armazenada de forma densa, o que limita a resolu c ao a problemas
com, no m aximo, duzentas restri c oes ativas.
Com o objetivo de complementar a atua c ao do pacote GRG2 para prob-
lemas de grande porte, foi desenvolvido recentemente o pacote LSGRG2
[186], utilizando estruturas esparsas para armazenamento e fatora c oes es-
parsas para as bases B
k
. Lasdon [127] apresenta um resumo dos avan cos
relativamente recentes no uso de metodos do tipo GRG, bem como uma
compara c ao dos desempenhos de GRG, programa c ao linear sequencial e pro-
grama c ao quadr atica sequencial.
Finalmente, deve ser mencionado que a estrategia GRG tem, historicamente,
despertado o interesse de pesquisadores devotados a resolver problemas de
controle discreto (ou de controle contnuo por meio de discretiza c ao). Nesses
casos, as vari aveis do problema (11.1.1) s ao as vari aveis de controle junto
com as vari aveis de estado do sistema, as restri c oes h(x) = 0 s ao as equa c oes
de estado e, talvez, restri c oes adicionais, e a caixa l x u representa co-
tas nas vari aveis, tanto de estado como de controle. O atrativo do GRG
para esse tipo de problemas radica em que, por um lado, e essencial neles
a manuten c ao da factibilidade, pois uma solu c ao parcial que n ao satisfa ca
uma equa c ao de estado carece totalmente de sentido. Por outro lado, as
vari aveis de controle s ao vari aveis independentes naturais do problema o
que, provavelmente, garante em muitos casos a necessidade de um n umero
pequeno de mudan cas de bases ao longo de todo o processo. Existem im-
plementa c oes especiais de metodos de tipo GRG para a estrutura particular
de determinados problemas de controle. Um exemplo de metodo desse tipo,
e bibliograa mais ampla, podem ser encontrados em [77].
204 CHAPTER 11. GRADIENTE REDUZIDO GENERALIZADO
Chapter 12
Programa cao quadratica
seq uencial
Um dos procedimentos fundamentais do c alculo numerico consiste na res-
olu c ao de problemas relativamente complicados atraves de uma seq uencia de
problemas mais simples. Dada uma aproxima c ao x
k
da solu c ao do problema
difcil, dene-se um problema f acil que e parecido com o problema origi-
nal, pelo menos numa regi ao pr oxima de x
k
. Freq uentemente, a solu c ao do
problema f acil e uma melhor aproxima c ao da solu c ao do problema colocado
originariamente. A vers ao mais simples dessa ideia e o metodo de New-
ton para achar zeros de fun c oes. Os metodos de programa c ao quadr atica
seq uencial s ao as generaliza c oes do metodo de Newton para o problema
geral de otimiza c ao. Neste problema, onde temos uma fun c ao objetivo e
um conjunto de restri c oes geralmente n ao lineares, a ideia consiste em sub-
stituir, em cada passo, a fun c ao objetivo por uma aproxima c ao quadr atica
e as restri c oes por equa c oes ou inequa c oes lineares. Dessa maneira, o sub-
problema a ser resolvido em cada itera c ao k e um problema de programa c ao
quadr atica que, em compara c ao ao problema original, pode ser consider-
ado simples. Assim como acontece com o metodo de Newton para zeros
de fun c oes, a vers ao mais ingenua da ideia n ao tem boas propriedades de
convergencia global, e modica c oes s ao necess arias para melhorar essas pro-
priedades. Neste captulo procuramos combinar uma vis ao did atica dos
princpios da programa c ao quadr atica seq uencial com uma introdu c ao a um
metodo moderno, onde as principais diculdades da ideia fundamental s ao
contornadas.
205
206 CHAPTER 12. PROGRAMAC
AO QUADR
ATICA SEQ
UENCIAL
12.1 Programa cao quadratica seq uencial pura
Ao longo deste captulo vamos considerar o problema geral de otimiza c ao
na forma padr ao:
Minimizar f(x) sujeita a h(x) = 0, l x u, (12.1.1)
onde f : IR
n
IR, h : IR
n
IR
m
. Os vetores l e u podem ter componentes
ou + respectivamente. Nesses casos, o smbolo deve ser inter-
pretado como <. Sabemos que, de fato, qualquer problema de otimiza c ao
com igualdades e desigualdades pode ser levado ` a forma (12.1.1) atraves da
introdu c ao de vari aveis de folga. Por exemplo, toda restri c ao do tipo
c(x) 0, (12.1.2)
pode ser transformada em
c(x) z = 0, z 0.
Dessa maneira, uma vari avel (z) e acrescentada ao problema para cada re-
stri c ao do tipo (12.1.2), o que pode ser uma desvantagem. Por outro lado,
o tratamento de restri c oes na forma padr ao e geralmente mais simples e
muitos algoritmos ecientes, com software bem desenvolvido, se baseiam na
forma padr ao.
Suponhamos que x
k
e uma aproxima c ao da solu c ao de (12.1.1). Provavel-
mente conseguiremos uma aproxima c ao melhor se, usando a informa c ao
disponvel em x
k
, transformarmos o problema (12.1.1) em um problema
mais simples, e resolvermos este ultimo.
Se, lembrando o paradigma newtoniano, substituirmos a fun c ao objetivo f
por sua melhor aproxima c ao linear numa vizinhan ca de x
k
, e zermos a
mesma coisa com as restri c oes, o problema simples associado a (12.1.1)
ser a
Minimizar f(x
k
) +f(x
k
)
T
(x x
k
)
sujeita a h
(x
k
)(x x
k
) +h(x
k
) = 0, l x u.
(12.1.3)
As substitui c oes efetuadas para chegar a (12.1.3) se baseiam no fato de que,
para fun c oes f e h diferenci aveis, temos f(x) f(x
k
) + f(x
k
)(x x
k
)
e h(x) h(x
k
) + h
(x
k
)(x x
k
). Agora, (12.1.3) e um problema de pro-
grama c ao linear, portanto, metodos baseados nessa aproxima c ao podem ser
chamados de programa c ao linear seq uencial. Um pouco mais de generali-
dade e obtida se, em vez de aproximar f por uma fun c ao linear, o fazemos
12.1. PROGRAMAC
AO QUADR
ATICA SEQ
(x
k
)(x x
k
) +h(x
k
) = 0, l x u.
(12.1.4)
O subproblema (12.1.4) e um problema de programa c ao quadr atica. Ele e
simples em termos relativos, ou seja, em compara c ao com o problema origi-
nal (12.1.1). (Via de regra, sua resolu c ao eciente pode demandar tecnicas
bastante sosticadas.) Quando usamos a aproxima c ao quadr atica de f neste
contexto, a primeira tenta c ao e denir B
k
=
2
f(x
k
). Veremos mais adi-
ante que, contrariamente a intui c ao, esta n ao e a escolha mais adequada de
B
k
. Pelo momento, no entanto, n ao faremos nenhuma suposi c ao sobre esta
matriz.
Uma das diculdades mais serias para a implementa c ao de algoritmos pr aticos
baseados no subproblema (12.1.4) e que este problema pode n ao ter solu c ao.
Isto acontece em duas situa c oes:
(a) Quando a regi ao factvel de (12.1.4) e vazia. Com efeito, a variedade am
h
(x
k
)(x x
k
) +h(x
k
) = 0 pode n ao ter intersec c ao com a caixa l x u.
Tambem, quando o posto de h
(x
k
) e menor que m e h(x
k
) n ao est a no
espa co coluna de h
(x
k
), a pr opria variedade am e vazia.
(b) Quando a fun c ao objetivo de (12.1.4) n ao e limitada inferiormente na
regi ao factvel. Neste caso, pela continuidade da fun c ao quadr atica, a regi ao
factvel n ao pode ser compacta, em particular, alguma componente de l
i
ou
u
i
deve ser innita.
Um problema menor e que, mesmo quando o subproblema (12.1.4) tem
solu c ao, ela pode n ao ser unica.
Exerccio 12.1: Provar que quando a regi ao factvel e n ao vazia, o subprob-
lema (12.1.4) tem solu c ao. Provar que a solu c ao e unica quando a matriz
B
k
e denida positiva. Exibir exemplos onde a solu c ao e unica mesmo sem
essa hip otese. Considerar o caso l
i
= , u
i
= para todo i. Analisar,
nesse caso, em que situa c oes o problema tem solu c ao e em que situa c oes a
solu c ao e unica. Exibir exemplos.
208 CHAPTER 12. PROGRAMAC
AO QUADR
ATICA SEQ
UENCIAL
Exerccio 12.2: Analisar o metodo iterativo baseado no subproblema (12.1.4)
nos seguintes casos particulares: (a) quando m = n e f(x) e constante; (b)
quando l
i
= , u
i
= para todo i; (c) quando m = 0 (n ao h a restri c oes
h(x) = 0; (d) quando (c) e (d) acontecem juntos. Em cada caso, observar
que o metodo resultante e conhecido. Identicar o metodo e estabelecer
propriedades em cada caso.
12.2 For cando solubilidade do subproblema
Na se c ao anterior vimos que a regi ao factvel de (12.1.4) pode ser vazia, ou
seja, e possvel que n ao exista nenhuma solu c ao do sistema linear
h
(x
k
)(x x
k
) +h(x
k
) = 0
que perten ca ` a caixa l x u. Existem v arias maneiras de contornar esta
diculdade. Em todas elas, o problema deve ser modicado de maneira tal
que, por um lado, o novo subproblema tenha solu c ao e, por outro lado, que
a nova solu c ao coincida com a solu c ao do subproblema (12.1.4) nos casos
em que aquela existia. Ambos pre-requisitos s ao preenchidos da seguinte
maneira. Primeiro, denimos o seguinte subproblema previo:
Minimizar |h
(x
k
)(x x
k
) +h(x
k
)|
2
2
sujeita a l x u .
(12.2.1)
O problema (12.2.1), que consiste em minimizar uma quadr atica convexa
numa caixa, sempre tem solu c ao. (A prova disto ser a deixada como exerccio
para o leitor.) Chamemos x
nor
k
a uma das solu c oes de (12.2.1). Portanto, o
politopo denido pela intersec c ao da caixa l x u com a variedade am
h
(x
k
)(x x
k
) = h
(x
k
)(x
nor
k
x
k
)
e n ao vazio. Claramente, no caso em que a regi ao factvel de (12.1.4) e n ao
vazia, temos que h
(x
k
)(x
nor
k
x
k
) +h(x
k
) = 0.
E natural, em conseq uencia,
substituir o subproblema (12.1.4) pelo seguinte problema de programa c ao
quadr atica:
Minimizar f(x
k
) +f(x
k
)
T
(x x
k
) +
1
2
(x x
k
)
T
B
k
(x x
k
)
sujeita a h
(x
k
)(x x
k
) = h
(x
k
)(x
nor
k
x
k
),
l x u.
(12.2.2)
12.2. FORC ANDO SOLUBILIDADE DO SUBPROBLEMA 209
Pelo exposto, a regi ao factvel de (12.2.2) e n ao vazia. Persiste, porem,
a possibilidade de que a fun c ao objetivo de (12.2.2) seja ilimitada inferior-
mente no seu conjunto de factibilidade. Portanto, para que exista solu c ao do
subproblema de programa c ao quadr atica, este precisa de uma modica c ao
adicional.
A pista para a nova modica c ao vem da seguinte considera c ao: nosso ob-
jetivo nal e resolver (12.1.1), e para isso nos baseamos em que perto de
x
k
, os subproblemas (12.1.4) ou (12.2.2) s ao parecidos com o problema
de otimiza c ao original. Em conseq uencia, mesmo que (12.2.2) tenha uma
solu c ao x, e prov avel que, se |x x
k
| for muito grande, essa solu c ao tenha
pouca rela c ao com boas aproxima c oes para a solu c ao de (12.1.1). Logo,
e justic avel, do ponto de vista dos nossos objetivos ultimos, exigir uma
limita c ao na dist ancia entre a solu c ao de (12.2.2) e a aproxima c ao atual
x
k
. Expressaremos essa necessidade, acrescentando, em (12.2.2), a restri c ao
adicional |xx
k
|
(x
k
)(x x
k
) = h
(x
k
)(x
nor
k
x
k
),
l x u, |x x
k
|
.
(12.2.3)
Infelizmente, a imposi c ao da restri c ao limitante |x x
k
|
em (12.2.3)
pode ser incompatvel com a deni c ao de x
nor
k
em (12.2.1). De fato, com
essa deni c ao, poderia ser que o problema (12.2.3) fosse infactvel. Portanto,
se queremos a limita c ao de |x x
k
|
(x
k
)(x x
k
) +h(x
k
)|
2
2
sujeita a l x u, |x x
k
|
0.8.
(12.2.4)
A restri c ao |x x
k
|
(x
k
)(xx
k
)+h(x
k
)|
2
2
seja sucientemente pequeno, e que a regi ao factvel
de (12.2.3) seja sucientemente ampla para permitir um decrescimo de sua
fun c ao objetivo.
Do ponto de vista da existencia e limita c ao da solu c ao do subproblema a
escolha da norma | |
ATICA SEQ
UENCIAL
porque, com ela, os subproblemas (12.2.4) e (12.2.3) continuam sendo de pro-
grama c ao quadr atica, o que n ao aconteceria, por exemplo, se escolhessemos
a norma euclidiana para limitar a dist ancia entre x e x
k
.
Exerccio 12.3: Provar que (12.2.1) e (12.2.4) sempre tem solu c ao. Provar
que, mesmo quando a solu c ao n ao e unica, o vetor h(x
nor
k
) independe da
solu c ao escolhida x
nor
k
.
Exerccio 12.4: Analisar o par de subproblemas (12.2.4)(12.2.3) nos
seguintes casos: (a) todos os l
i
s ao e todos os u
i
s ao +; (b) n ao h a
restri c oes h(x) = 0; (c) a fun c ao f(x) e constante; (d) as restri c oes h(x) = 0
s ao lineares.
Exerccio 12.5: Analisar os subproblemas (12.2.4)(12.2.3) substituindo
| |
por | |
2
. Considerar x
nor
k
como uma fun c ao de e desenhar uma
trajet oria tpica x
nor
k
() para [0, ). Interpretar geometricamente.
Exerccio 12.6: Estabelecer rigorosamente em que sentido a solu c ao de
(12.2.4)(12.2.3) coincide com a solu c ao de (12.1.4) quando este problema e
sol uvel.
Exerccio 12.7: Refazer os argumentos das Se c oes 12.1 e 12.2 para o prob-
lema de otimiza c ao denido na forma
Minimizar f(x)
sujeita a h(x) 0,
onde h : IR
n
IR
m
. Refazer, mais uma vez, os argumentos para considerar
misturas de restri c oes de igualdade e desigualdade.
12.3 A fun cao de merito
A argumenta c ao das se c oes 12.1 e 12.2 parece consolidar a seguinte forma
para um algoritmo de programa c ao quadr atica seq uencial destinado a re-
solver o problema (12.1.1):
Algoritmo 12.3.1
Suponhamos que x
0
IR
n
(l x u) e uma aproxima c ao inicial da solu c ao
de (12.1.1). Se x
k
(k = 0, 1, 2, . . .) e a aproxima c ao obtida na kesima
12.3. A FUNC
AO DE M
ERITO 211
itera c ao (l x
k
u), B
k
IR
nn
e uma matriz simetrica e > 0, ent ao
x
k+1
e obtida da seguinte maneira:
Passo 1. Resolver (12.2.4) e (12.2.3).
Passo 2. Se x, a solu c ao obtida no Passo 1, e sucientemente boa em
rela c ao a x
k
, ent ao denir x
k+1
= x e terminar a itera c ao. Caso contr ario,
diminuir e retornar ao Passo 1.
A principal quest ao que o Algoritmo 12.3.1 deixa em aberto e: que sig-
nica sucientemente boa? Se n ao houvesse restri c oes do tipo h(x) = 0,
o unico criterio para julgar se x e melhor que x
k
seria o valor de f( x) em
rela c ao ao valor de f(x
k
). Por outro lado, se a fun c ao objetivo de (12.1.1)
fosse constante, o criterio deveria estar baseado em alguma norma de h(x).
De um modo geral, nas itera c oes destinadas a resolver (12.1.1) existem dois
objetivos a serem melhorados simultaneamente: a factibilidade (medida por
|h(x)|) e a otimalidade (medida por f(x)). Claramente, se f( x) f(x
k
) e
|h( x)| |h(x
k
)| devemos decidir que x e melhor que x
k
em rela c ao ao
objetivo de resolver (12.1.1). A situa c ao n ao e clara quando
f( x) < f(x
k
) e |h( x)| > |h(x
k
)|
ou
f( x) > f(x
k
) e |h( x)| < |h(x
k
)|.
No primeiro caso nos perguntamos: ser a que o ganho em otimalidade com-
pensa a perda de factibilidade? No segundo: o ganho em factibilidade com-
pensa o aumento de f?
Uma fun c ao de merito combina f(x) e h(x) de maneira a permitir possveis
respostas ` as perguntas acima. Elementos adicionais para a constru c ao de
uma fun c ao de merito vem de considerar as condi c oes de otimalidade do
problema (12.1.1). Denimos, como e habitual, o Lagrangiano, (x, ) por
(x, ) = f(x) +h(x)
T
(12.3.1)
para todo x IR
n
, IR
m
. As condi c oes necess arias de primeira ordem
(Karush-Kuhn-Tucker) estabelecem que um minimizador local x junto com
seu vetor de multiplicadores deve satisfazer:
[
x
(x, )]
i
= 0, [
x
(x, )]
i
0, [
x
(x, )]
i
0 (12.3.2)
se l
i
< [x]
i
< u
i
, [x]
i
= l
i
ou [x]
i
= u
i
respectivamente. Alem disso, a
factibilidade da solu c ao implica que
ATICA SEQ
UENCIAL
As condi c oes (12.3.2) e (12.3.3) s ao satisfeitas se o par (x, ) e um mini-
mizador de (x, ) para l x u.
Exerccio 12.8: Estabelecer rigorosamente as condi c oes nas quais valem
(12.3.2) e (12.3.3).
As considera c oes acima parecem sugerir que (x, ) denida em (12.3.1) seria
uma fun c ao de merito adequada, porem, envolvendo as duas vari aveis, x e
. No entanto, podemos observar que, se h(x) ,= 0, valores de (x, ) muito
grandes e negativos podem ser obtidos apenas variando , por exemplo,
fazendo = h(x) para muito grande (embora, talvez, limitado). Isso
signica que, se us assemos o Algoritmo 12.3.1 com um criterio de aceita c ao
baseado na fun c ao de merito , a solu c ao x de (12.2.4)-(12.2.3) sempre seria
aceita se apenas tom assemos a providencia de escolher de maneira oportuna,
as novas estimativas dos multiplicadores.
Examinemos, pois, uma segunda possibilidade, que contempla a fun c ao ,
combinando-a com uma segunda fun c ao que se preocupa, fundamental-
mente, com a factibilidade da itera c ao. Esta segunda fun c ao e, simples-
mente,
(x) =
1
2
|h(x)|
2
. (12.3.4)
A combina c ao aludida acima e uma combina c ao convexa de e . Dado
[0, 1], denimos
(x, , ) = (x, ) + (1 )(x). (12.3.5)
A conan ca que depositamos em como fun c ao de merito se baseia no
seguinte: se for necess ario (o que ser a estabelecido precisamente mais
adiante) ser a escolhido perto de 0, de maneira que ser a dominante na
combina c ao (12.3.5). Assim as componentes de h(x) ser ao obrigatoriamente
empurradas para valores pequenos. Agora, para valores pequenos de |h(x)|,
se a aproxima c ao dos multiplicadores e mantida limitada, o efeito redutor
devido a varia c ao destes, de que falamos antes, ser a desprezvel. Portanto,
a diminui c ao do primeiro termo da combina c ao convexa ser a devido ` a
diminui c ao de f.
Essas considera c oes nos levam a especicar um pouco mais o Algoritmo
12.3.1, agora baseado na fun c ao de merito .
Algoritmo 12.3.2
Suponhamos que L > 0 (grande), x
0
IR
n
(l x u) e uma aproxima c ao
inicial da solu c ao de (12.1.1) e
0
IR
m
(|
0
| L) e uma aproxima c ao
12.4. DECR
| L).
Passo 3. Se x, a solu c ao obtida no Passo 1 e tal que
( x,
, ) (x
k
,
k
, ), (12.3.6)
denir x
k+1
= x,
k+1
=
e terminar a itera c ao. Caso contr ario, diminuir
e retornar ao Passo 1.
12.4 Decrescimo suciente
No Algoritmo 12.3.2 ainda existem v arios aspectos n ao denidos:
(a) A escolha dos novos multiplicadores
no Passo 2.
(b) A determina c ao do par ametro , no mesmo passo.
(c) O signicado preciso da express ao no Passo 3.
(d) A escolha do valor inicial em cada itera c ao e a forma de diminuir
, quando isso e necess ario.
(e) A escolha da matriz simetrica B
k
.
A decis ao sobre a escolha de B
k
ser a adiada para uma se c ao posterior. O
monitoramento do raio de conan ca n ao oferece grandes diculdades
conceituais. Nosso procedimento, neste caso, e o seguinte: estabelece-se a
priori (independentemente do n umero da itera c ao k) um raio de conan ca
mnimo inicial
min
. O primeiro testado ao come car a itera c ao k deve ser
maior ou igual a
min
. Isso possibilita que, ao menos no come co, itera c oes
sucientemente arrojadas sejam efetuadas, evitando passos excessivamente
curtos. Agora, quando precisamos diminuir no Passo 3 (devido a fun c ao
de merito n ao ter decrescido sucientemente), determinamos o novo no
intervalo [0.1, 0.9]. Naturalmente, fazer Novo = /2 e uma escolha
admissvel.
214 CHAPTER 12. PROGRAMAC
AO QUADR
ATICA SEQ
UENCIAL
O vetor de multiplicadores
pode ser escolhido de maneira totalmente ar-
bitr aria, sujeito ` a restri c ao |
)(x+s, ) = h(x+s)
T
(
) = [h(x)+h
(x)s]
T
(
)+O(|s|
2
).
(12.4.1)
12.4. DECR
(x)s]
T
+O(|s|
2
)
= [f(x)+h
(x)
T
]
T
s+
1
2
s
T
B
k
s+O(|s|
2
) =
x
(x, )
T
s+
1
2
s
T
B
k
s+O(|s|
2
)
(12.4.2)
Somando membro a membro (12.4.1) e (12.4.2), obtemos:
(x+s,
)(x, ) =
x
(x, )
T
s+
1
2
s
T
B
k
s+[h(x)+h
(x)s]
T
(
)+O(|s|
2
).
(12.4.3)
Por outro lado, pelo desenvolvimento de Taylor de h,
h(x +s) = h(x) +h
(x)s +O(|s|
2
),
portanto,
|h(x +s)|
2
2
= |h(x) +h
(x)s|
2
2
+O(|s|
2
),
e, pela deni c ao de ,
(x +s) (x) =
1
2
|h(x) +h
(x)s|
2
2
1
2
|h(x)|
2
2
+O(|s|
2
). (12.4.4)
Multiplicando (12.4.3) por , (12.4.4) por 1, e somando membro a membro
as duas express oes resultantes, obtemos:
(x, , ) (x +s,
, ) = Pred(x, s, ,
, B
k
, ) +O(|s|
2
), (12.4.5)
onde
Pred(x, s, ,
, B
k
, )
= [
x
(x, )
T
s +
1
2
s
T
B
k
s + [h(x) +h
(x)s]
T
(
)]
+(1 )[
1
2
|h(x) +h
(x)s|
2
2
1
2
+|h(x)|
2
2
]. (12.4.6)
Portanto, podemos considerar que a express ao Pred e uma boa aproxima c ao
do decrescimo (x, , )(x+s,
ATICA SEQ
UENCIAL
um decrescimo da ordem de Pred na fun c ao de merito e de se esperar.
Adiando, por um momento, a prova de que Pred e, efetivamente, positivo, e
adotando uma postura conservadora, diremos que ( x,
, ) (x
k
,
k
, )
quando
(x
k
,
k
, ) ( x,
, ) 0.1Pred(x
k
, x x
k
,
k
,
, B
k
, ). (12.4.7)
Incorporando o criterio de aceita c ao (12.4.7), denimos agora uma modi-
ca c ao do Algoritmo 12.3.2, com o qual nalizamos esta se c ao. O Algoritmo
12.4.1 e identico ao Algoritmo 12.3.2, com o criterio impreciso (12.3.6) sub-
stitudo por (12.4.7).
Algoritmo 12.4.1
Suponhamos que x
0
IR
n
(l x u) e uma aproxima c ao inicial da solu c ao
de (12.1.1) e
0
IR
m
, |
0
| L e uma aproxima c ao inicial dos multipli-
cadores de Lagrange. Se x
k
,
k
(k = 0, 1, 2, . . .) s ao as aproxima c oes obtidas
na kesima itera c ao (l x
k
u, |
k
| L), B
k
IR
nn
e uma matriz
simetrica e > 0, ent ao x
k+1
e obtida da seguinte maneira:
Passo 1. Resolver (12.2.4) e (12.2.3).
Passo 2. Escolher um valor adequado para [0, 1] e estimar novos multi-
plicadores
(|
| L).
Passo 3. Se x, a solu c ao obtida no Passo 1, satisfaz (12.4.7), denir x
k+1
=
x,
k+1
=
e terminar a itera c ao. Caso contr ario, diminuir e retornar ao
Passo 1.
12.5 O parametro de penalidade
Nesta se c ao discutiremos a escolha do par ametro de penalidade , no Passo
2 do nosso algoritmo b asico. A denomina c ao par ametro de penalidade se
justica, depois de observar que
(x, , ) = [(x, ) +
1
(x)].
Portanto, exigir decrescimo de (x, , ) equivale a exigir decrescimo da
fun c ao
(x
k
)( x x
k
)|
2
2
0.
Portanto, da deni c ao de Pred surge que, para = 0,
Pred(x
k
, x x
k
,
k
,
, B
k
, ) 0.
Ou seja, Pred e uma combina c ao convexa do tipo a + (1 )b onde, nec-
essariamente, b 0. No entanto, o elemento a dessa combina c ao convexa,
n ao e necessariamente positivo. Para que Pred seja, garantidamente, maior
ou igual a 0, e maior que zero quando b > 0, vamos exigir que
Pred(x
k
, x x
k
,
k
,
, B
k
, )
1
2
[|h(x
k
)|
2
2
|h(x
k
) +h
(x
k
)( x x
k
)|
2
2
].
(12.5.1)
Como (12.5.1) vale para = 0, resulta que podemos denir
sup
0 por
sup
= sup [0, 1] tais que (12.5.1) se verica. (12.5.2)
Se, no Passo 2 do algoritmo, escolhermos sempre
sup
, ent ao, por
(12.5.1), a condi c ao (12.4.7) implicar a descida simples da fun c ao de merito.
(( x,
, ) (x
k
,
k
, )). Como valores maiores que
sup
n ao satisfazem
(12.5.1) parece bastante sensato, impor a condi c ao
sup
(12.5.3)
para a escolha de no Passo 2. No entanto, o requisito (12.5.3) deixa ainda
bastante liberdade, quando
sup
> 0. Outras considera c oes ser ao necess arias
para fazer uma elei c ao adequada, dentro das possveis.
O algoritmo baseado na fun c ao de merito poderia ser interpretado como
um metodo destinado a minimizar a sujeita apenas as restri c oes de canal-
iza c ao l x u. Esta interpreta c ao parece ser compatvel com o conceito
generico do signicado de uma fun c ao de merito. No entanto, neste caso, tal
interpreta c ao n ao parece totalmente adequada, devido ` a fun c ao mudar de
uma itera c ao para outra, de acordo com a escolha de . Com efeito, estab-
elece pesos relativos para a factibilidade e a otimalidade no algoritmo (com
218 CHAPTER 12. PROGRAMAC
AO QUADR
ATICA SEQ
UENCIAL
perto de 0 o metodo privilegia factibilidade e com perto de 1 privilegia
otimalidade). Grandes varia c oes de de uma itera c ao para outra pareceriam
indicar que o metodo n ao consegue decidir qual e o peso adequado para cada
um dos objetivos que s ao visados. Essa e uma motiva c ao para limitar, pelo
menos assintoticamente, as varia c oes de . A maneira mais obvia de for car
uma varia c ao limitada de , consiste em impor, alem da condi c ao (12.5.3),
a seguinte:
k1
, (12.5.4)
onde, para todo k = 0, 1, 2, . . .,
k
e o valor de escolhido na ultima passada
pelo Passo 2. Juntando as condi c oes (12.5.3) e (12.5.4), teremos que a
seq uencia
k
e mon otona n ao crescente e positiva, portanto convergente.
Isso implicaria que, a longo prazo, a fun c ao de merito seria, essencialmente,
a mesma, e a interpreta c ao criticada acima passaria a ser v alida.
No entanto, a escolha mon otona de tambem n ao e plenamente satisfat oria.
Lembrando que estabelece uma pondera c ao entre factibilidade e otimal-
idade, seria possvel que, sobretudo nas primeiras itera c oes, valores muito
pequenos de fossem impostos por (12.5.3) devido ` a necessidade de refor car
factibilidade, e que esses valores muito pequenos fossem herdados por to-
das as itera c oes posteriores, onde valores maiores seriam toler aveis. Em
outras palavras, a condi c ao (12.5.4) carrega demasiadamente a hist oria de
diculdades passadas do algoritmo, que podem n ao existir mais na itera c ao
atual. Essas considera c oes nos levam ` a deni c ao da seguinte estrategia n ao
mon otona para : escolhe-se, independentemente de k um n umero N > 0
que representar a o grau de n ao-monotonicidade de
k
. N = 0 corre-
sponder a ` a escolha mon otona, baseada em (12.5.4), e valores grandes de N
aproximar ao de
sup
. Denimos
min
k
= min 1,
0
, . . . ,
k1
, (12.5.5)
grande
k
= (1 + (N/k)
1.1
)
min
k
, (12.5.6)
e, nalmente,
= min
grande
k
,
sup
. (12.5.7)
Apesar de (12.5.5)(12.5.7) n ao implicar monotonia de
k
, essa escolha
implica convergencia da seq uencia
k
(ver Exerccio 12.13), o que, do ponto
de vista da interpreta c ao da fun c ao de merito, e igualmente satisfat orio.
Como zemos nas se c oes anteriores, a discuss ao realizada aqui nos permite
especicar um pouco mais o algoritmo principal.
Algoritmo 12.5.1
12.6. O ALGORITMO EST
| L).
Passo 3. Se x, a solu c ao obtida no Passo 1, satisfaz (12.4.7), denir x
k+1
=
x,
k+1
=
,
k
= e terminar a itera c ao. Caso contr ario, diminuir , (por
exemplo, dividir por 2) e retornar ao Passo 1.
Exerccio 12.11: Em que caso o unico par ametro de penalidade que verca
Pred 0 e = 0?
Exerccio 12.12: Obter uma f ormula explcita para
sup
.
Exerccio 12.13: Provar que a seq uencia
k
denida por (12.5.5)(12.5.7),
e convergente.
12.6 O algoritmo esta bem denido
O metodo apresentado ate aqui e muito an alogo ao introduzido em [98].
A diferen ca fundamental e que em [98], visando aplica c ao a problemas
de grande porte, os subproblemas (12.2.4) e (12.2.3) s ao resolvidos ape-
nas aproximadamente, com criterios adequados para a precis ao da sua
resolu c ao. Para simplicar a exposi c ao, apresentamos neste captulo o algo-
ritmo supondo solu c ao exata de (12.2.4) e (12.2.3). A an alise de convergencia
do algoritmo e complicada, e daremos apenas indica c oes sobre a mesma na
Se c ao 12.7. Nesta se c ao, provaremos que o algoritmo est a bem denido,
isto e, que sob hip oteses adequadas, que incluem o fato de x
k
ainda n ao ser
uma solu c ao, pode-se encontrar x
k+1
em tempo nito. Em outras palavras,
mostraremos que o ciclo atraves dos passos 1, 2 e 3 do algoritmo e nito.
Provaremos que o algoritmo est a bem denido em duas situa c oes:
(a) x
k
n ao e um ponto estacion ario do problema
Minimizar (x) sujeita a x u; (12.6.1)
(b) x
k
e um ponto factvel, regular e n ao estacion ario de (12.1.1).
220 CHAPTER 12. PROGRAMAC
AO QUADR
ATICA SEQ
UENCIAL
Assim, cam as seguintes situa c oes em que o algoritmo n ao est a bem denido
e que, portanto, devem ser identicadas antes de come car o ciclo principal
de cada itera c ao para evitar loops innitos:
(c) x
k
e um ponto estacion ario de (12.6.1) mas h(x
k
) ,= 0. (Lembremos que,
por constru c ao, l x
k
u para todo k.
(d) x
k
e um ponto factvel de (12.1.1) mas n ao e regular (os gradientes das
restri c oes ativas em x
k
, incluindo as canaliza c oes, s ao linearmente depen-
dentes).
(e) x
k
e um ponto regular e estacion ario de (12.1.1).
Nessas situa c oes, o algoritmo deveria parar. Delas, apenas (e) pode ser
considerada um sucesso. A situa c ao (c) representa, claramente, um fra-
casso. Uma situa c ao duvidosa e (d), j a que um ponto n ao regular de
(12.1.1) poderia ser minimizador global de (12.1.1). N ao entraremos nesse
tipo de sutileza.
Come caremos provando que o algoritmo est a bem denido quando x
k
n ao e
um ponto estacion ario de (12.6.1).
Teorema 12.6.1 - Boa deni c ao em pontos n ao factveis
Se x
k
n ao e um ponto estacion ario de (12.6.1), ent ao o Algoritmo 12.5.1
calcula um novo ponto x
k+1
atraves de uma quantidade nita de passagens
pelos passos 13.
Prova: Denimos
M(x) =
1
2
|h
(x
k
)(x x
k
) +h(x
k
)|
2
2
.
Claramente, (x
k
) = M(x
k
) = h
(x
k
)
T
h(x
k
), portanto x
k
n ao e ponto
estacion ario de M(x) sujeita a l x u. Portanto, existe uma dire c ao
factvel e de descida para M na caixa l x u. Seja, pois, d IR
n
tal que
|d|
= 1 e M(x
k
)
T
d < 0.
A fun c ao (t) = M(x
k
+ td) e uma par abola convexa tal que
(0) =
d
T
M(x
k
) < 0. Se a par abola e estritamente convexa (coeciente de se-
gunda ordem estritamente positivo), admite um minimizador irrestrito
t > 0.
Propriedades elementares das par abolas garantem, nesse caso, que
(t) (0) +
1
2
(0)t (12.6.2)
para todo t [0,
t,
t.
Naturalmente, (12.6.2) vale para todo t [0,
= 1,
temos que t = |td|
0.8
vericando
M(x) M(0) c,
onde c = 0.4
(0) > 0.
Portanto, para
, escrevendo x
nor
= x
nor
(), temos que
1
2
[|h(x
k
)|
2
2
|h(x
k
) +h
(x
k
)(x
nor
() x
k
)|
2
2
] c.
Logo, escrevendo x = x(), deduzimos, pela forma do subproblema (12.2.3),
que
1
2
[|h(x
k
)|
2
2
|h(x
k
) +h
(x
k
)( x() x
k
)|
2
2
] c.
Portanto, de (12.5.1) inferimos que, para todo (0,
],
Pred(x
k
, x() x
k
,
k
,
, B
k
, )
c
2
> 0. (12.6.3)
De (12.4.5) e (12.6.3) deduzimos que
lim
0
(x
k
) ( x()
Pred(x
k
, x() x
k
,
k
,
, B
k
, )
1
= 0.
Este limite implica que, para sucientemente pequeno o teste (12.4.7)
e satisfeito. Portanto, a itera c ao termina depois de um n umero nito de
redu c oes de . QED
Nosso pr oximo passo consiste em provar que, se x
k
e um ponto factvel, reg-
ular e n ao estacion ario de (12.1.1), ent ao a itera c ao denida pelo algoritmo
12.5.1 tambem termina em tempo nito.
Teorema 12.6.2 - Boa deni c ao em pontos factveis
Suponhamos que x
k
e um ponto factvel, regular e n ao estacion ario de (12.1.1).
Ent ao o Algoritmo 12.5.1 calcula um novo ponto x
k+1
atraves de uma quan-
tidade nita de passagens pelos passos 13.
Prova: Denimos, analogamente ao Teorema 12.6.1,
Q(x) =
1
2
(x x
k
)
T
B
k
(x x
k
) +f(x
k
)(x x
k
) +f(x
k
).
222 CHAPTER 12. PROGRAMAC
AO QUADR
ATICA SEQ
UENCIAL
Consideramos o problema de programa c ao quadr atica
Minimizar Q(x), sujeita a h
(x
k
)(x x
k
) = 0, l x u. (12.6.4)
Claramente, x
k
e um ponto factvel e regular do problema (12.6.4). Mais
ainda, as condi c oes de otimalidade de (12.1.1) e de (12.6.4) em x
k
s ao
identicas. Como, por hip otese, elas n ao s ao cumpridas para (12.1.1), segue-
se que x
k
n ao e um ponto estacion ario de (12.6.4). Portanto, existe uma
dire c ao factvel, unit aria (|d|
t], x
k
+td e factvel para o problema
(12.6.4) e
Q(x
k
) Q(x
k
+td) ct.
Portanto, como |td|
(x
k
) e h(x
k
) = 0, a
desigualdade (12.6.5) implica que
[
x
(x
k
,
k
)
T
( x x
k
) +
1
2
( x x
k
)
T
B
k
( x x
k
)
+[h(x
k
) +h
(x
k
)( x x
k
)]
T
(
k
)] c + > 0.
Logo, pela deni c ao de Pred temos que
Pred(x
k
, x x
k
,
k
,
, B
k
, ) c > 0.
Agora, como h(x
k
) = h
(x
k
)( x x
k
) = 0, temos que todos os (0, 1]
satisfazem o teste (12.5.1) para
. Isto implica que, para esses valores
de , o par ametro n ao precisa ser reduzido. Portanto, existe
> 0 tal
que
Pred(x
k
, x x
k
,
k
,
, B
k
, )
c > 0 (12.6.6)
12.7. A PROVA DE CONVERG
(x
k
) ( x()
Pred(x
k
, x() x
k
,
k
,
, B
k
, )
1
= 0.
Logo, para sucientemente pequeno o teste (12.4.7) e satisfeito e, assim,
a itera c ao termina depois de um n umero nito de redu c oes de . QED
12.7 A prova de convergencia global
(x
k
) ( x)
Pred()
1
= O().
224 CHAPTER 12. PROGRAMAC
AO QUADR
ATICA SEQ
UENCIAL
(c) Supondo que x
,
o raio de conan ca nalmente aceito
k
e uniformemente maior que um
n umero positivo xo
. Junto com (b), isto implica que a redu c ao da
fun c ao de merito em uma quantidade innita de itera c oes vizinhas de x
e
superior a uma quantidade positiva xa.
(d) Se a fun c ao de merito fosse sempre a mesma para todo k sucientemente
grande, o resultado (c) seria suciente para chegar a um absurdo (fun c ao de
merito tendendo a em condi c oes de compacidade). Como a fun c ao de
merito muda de uma itera c ao para outra, esse absurdo se consegue apenas
pela propriedade de convergencia da seq uencia
k
que, como vemos aqui, e
crucial do ponto de vista te orico.
Na segunda parte da prova de convergencia se demonstra a existencia de pelo
menos um ponto limite que e estacion ario para o problema (12.1.1). N ao
existe ainda uma prova de que todos os pontos limites s ao estacion arios e, ao
longo de toda a demonstra c ao desta segunda parte, e usada, por absurdo,
a hip otese de que nenhum ponto limite da seq uencia e estacion ario. Outras
suposi c oes sobre o problema tambem s ao necess arias nesta parte:
(i) Todos os pontos estacion arios de (12.6.1) s ao factveis.
(ii) Todos os pontos factveis de (12.1.1) s ao regulares.
Devido ` a hip otese (i), pode-se supor, ao longo da prova, que
lim
k
|h(x
k
)| = 0.
Na primeira parte da prova por absurdo, demonstra-se que a fun c ao (quadr atica)
objetivo de (12.2.3) tem um bom decrescimo (proporcional a ) desde
x
nor
() ate x(). Chamamos a esta varia c ao de decrescimo tangencial.
O argumento se baseia em x
nor
ser um ponto factvel de (12.2.3) e, devido a
|x
nor
x
k
| 0.8, existir uma folga (brevemente, de 0.2) para um bom
decrescimo da quadr atica.
Na segunda parte da prova, examinamos a composi c ao da quantidade crucial
que chamamos Pred. Como na prova da estacionariedade em rela c ao a
dos pontos limite, necessitamos que Pred seja positivo e proporcional a .
O decrescimo proporcional a da fun c ao objetivo de (12.2.3), entre x
nor
e x
e um bom passo. Agora, observando a deni c ao (12.4.6) de Pred, vemos que
o termo que multiplica est a composto, alem do decrescimo da quadr atica
entre x
nor
e x, pela varia c ao dessa quadr atica entre x
k
e x
nor
e pelo termo
que envolve a varia c ao dos multiplicadores de Lagrange. Esses dois termos
estorvam o objetivo de ter um Pred sucientemente positivo. Por outro
lado, o termo que multiplica a 1 e, claramente, proporcional a |h(x
k
)|,
12.7. A PROVA DE CONVERG
ATICA SEQ
UENCIAL
pode ser necess ario diminuir . Uma propriedade adicional da zona ruim e
que, nessa zona,
sup
e sempre superior a um m ultiplo de . Juntando as
duas propriedades acima, diramos que e possvel entrar na indesej avel zona
ruim, mas pouco, e que e possvel ter que diminuir na zona ruim, mas de
maneira controlada.
N ao e de se estranhar, em conseq uencia, que os efeitos perniciosos da zona
ruim estejam tambem limitados. De fato, usando as propriedades acima e,
de novo, a expans ao de Taylor da fun c ao de merito, chega-se a conclus ao
de que o quociente entre a varia c ao desta e Pred converge a 1 considerando
apenas raios na zona boa. Isso e uma agrante contradi c ao, porque impli-
caria em jamais ser necess ario entrar na zona ruim. Tais contradi c oes se
originam na suposi c ao err onea original que, como lembramos, consistia em
assumir que nenhum ponto limite era estacion ario para o problema (12.1.1).
12.8 A Hessiana da quadratica
Os algoritmos estudados neste captulo permitem uma grande liberdade na
escolha na matriz B
k
, Hessiana da quadr atica fun c ao objetivo de (12.2.3).
O Algoritmo 12.5.1 exige apenas que a seq uencia de matrizes B
k
esteja uni-
formemente limitada. Por exemplo, a teoria e v alida se todas as B
k
s ao nu-
las, caso no qual poderamos falar, mais apropriadamente, de programa c ao
linear seq uencial.
No entanto, como acontece na resolu c ao de sistemas n ao lineares e na mini-
miza c ao de fun c oes sem restri c oes, existem escolhas otimas para as matrizes
que denem os algoritmos, e outras escolhas francamente desaconselh aveis.
Nos algoritmos de regi oes de conan ca sem restri c oes a melhor escolha e a
Hessiana da fun c ao objetivo. Apesar disso, a teoria de convergencia global
para condi c oes de primeira ordem funcionaria mesmo que escolhessemos sua
inversa aditiva!
De um modo geral, estamos acostumados a pensar que a escolha otima de
uma matriz e a que se relaciona mais diretamente com o metodo de Newton.
Vejamos aonde nos leva este tipo de argumento no caso da programa c ao
quadr atica seq uencial.
Para xar ideias, vamos considerar nesta se c ao problemas do tipo (12.1.1)
apenas com as restri c oes de igualdade, ou seja:
Minimizar f(x)
sujeita a h(x) = 0
(12.8.1)
12.8. A HESSIANA DA QUADR
ATICA 227
`
A primeira vista, a escolha mais newtoniana para B
k
e a pr opria Hessiana
da fun c ao objetivo: B
k
=
2
f(x
k
). No entanto, o seguinte problema simples
ajuda a levantar alguma suspeita sobre essa elei c ao:
Minimizar 4(x
1
1)
2
+x
2
2
sujeita a x
1
x
2
2
= 0 ,
(12.8.2)
Neste problema, o ponto (0, 0) seria um minimizador para
Minimizar 4(x
1
1)
2
+x
2
2
sujeita a x
1
= 0 ,
mas um maximizador para (12.8.2). Em outras palavras, quando tomamos
B
k
=
2
f(x
k
) em (12.2.3), perdemos informa c oes sobre a curvatura das
restri c oes. Isto nos sugere que devemos incorporar em B
k
as derivadas se-
gundas de h.
Vejamos a situa c ao sob outro ponto de vista, mais claramente newtoniano.
Consideremos as condi c oes de otimalidade do problema (12.8.1). Se x
e um
ponto regular minimizador local de (12.8.1), ent ao existe
IR
m
tal que
f(x
) +h
(x
)
T
= 0
h(x
) = 0 .
(12.8.3)
Pensando (12.8.3) como um sistema n ao linear nas vari aveis (x, ) (F(x, ) = 0),
seu Jacobiano e
F
(x, ) =
_
2
f(x) +
m
i=1
2
h
i
(x) h
(x)
T
h
(x) 0
_
Portanto, o metodo de Newton aplicado a F(x, ) = 0 vem dado por
[
2
f(x
k
)+
m
i=1
[
k
]
i
2
h
i
(x
k
)](xx
k
)+h
(x
k
)
T
(
k
) = (f(x
k
)+h
(x
k
)
T
k
)
e
h
(x
k
)(x x
k
) = h(x
k
),
ou seja,
[
2
f(x
k
) +
m
i=1
[
k
]
i
2
h
i
(x
k
)](x x
k
) +h
(x
k
)
T
+f(x
k
) = 0
h
(x
k
)(x x
k
) +h(x
k
) = 0 .
(12.8.4)
Agora, as condi c oes de otimalidade de (12.1.4), sem as restri c oes de canal-
iza c ao l x u, s ao
228 CHAPTER 12. PROGRAMAC
AO QUADR
ATICA SEQ
UENCIAL
B
k
(x x
k
) +f(x
k
) +h
(x
k
)
T
y = 0
h
(x
k
)(x x
k
) +h(x
k
) = 0
(12.8.5)
onde y IR
m
. Logo, comparando (12.8.4) com (12.8.5), o metodo de Newton
nos sugere que
B
k
=
2
f(x
k
) +
m
i=1
[
k
]
i
2
h
i
(x
k
) (12.8.6)
onde
k
IR
m
e uma estimativa para os multiplicadores de Lagrange. Com
a escolha (12.8.6) para B
k
, a curvatura das restri c oes est a sendo contem-
plada. A matriz B
k
ideal seria portanto a Hessiana do Lagrangiano, para
a qual as propriedades de convergencia local do metodo denido pelo sub-
problema (12.1.4) seriam as mesmas que as do metodo de Newton aplicado
ao sistema denido por (12.8.3). Para outras aproxima c oes para B
k
, a con-
vergencia local seria a mesma que a de um metodo quase-Newton. Boggs,
Tolle e Wang [19] deram uma condi c ao an aloga ` a condi c ao Dennis-More para
a convergencia superlinear de metodos quase-Newton aplicados a (12.8.3).
Uma conseq uencia dessa condi c ao e que, supondo n ao singularidade da Ja-
cobiana do sistema (12.8.3), se as matrizes B
k
convergem ` a Hessiana do
Lagrangiano na solu c ao, ent ao a convergencia do par (x
k
,
k
) para (x
)
e superlinear.
Exerccio 12.14: Discutir duas alternativas para o coeciente linear de
(12.1.4)(12.2.3): f(x
k
) e (x
k
). Justicar a arma c ao de que, em um
caso, (12.1.4)(12.2.3) fornece diretamente a nova estimativa dos multipli-
cadores de Lagrange, e no outro, fornece seu incremento.
Exerccio 12.15: Relacionar a n ao singularidade da Jacobiana do sistema
(12.8.3) na solu c ao com as propriedades da Hessiana do Lagrangiano no
n ucleo de h
(x
B
k
s
k
s
T
k
B
k
s
T
k
B
k
s
k
+
y
k
y
T
k
s
T
k
y
k
onde s
k
= x
k+1
x
k
e y
k
=
x
(x
k+1
,
k+1
)
x
(x
k
,
k
). Se B
k
e denida
positiva, como no caso de minimiza c ao sem restri c oes, a condi c ao s
T
k
y
k
> 0
12.9. OUTRAS FUNC
OES DE M
ERITO 229
garante que B
k+1
e denida positiva. No entanto, pode ser que s
k
e y
k
n ao
satisfa cam essa desigualdade. Powell [164] prop oe que y
k
seja substitudo
por
y
k
= y
k
+ (1 )B
k
s
k
,
onde
=
_
_
1 , s
T
k
y
k
0.2s
T
k
B
k
s
k
0.8s
T
k
B
k
s
k
s
T
k
B
k
s
k
s
T
k
y
k
, s
T
k
y
k
< 0.2s
T
k
B
k
s
k
.
No entanto, o mesmo autor [167] observa que a substitui c ao de y
k
por y
k
pode ser inst avel. Boggs e Tolle [17], por sua vez, prop oem que B
k+1
= B
k
quando s
T
k
y
k
< 0.
Exerccio 12.16: Supor que o problema (12.1.4) sem canaliza c oes e factvel.
Mostrar, usando uma base do n ucleo de h
(x
k
), como esse problema pode
ser reduzido ` a minimiza c ao de uma quadr atica sem restri c oes. Em que
condi c oes esse problema tem solu c ao unica? Supondo que B
k
e denida
positiva, e escrevendo A
k
= h
(x
k
), h
k
= h(x
k
), g
k
f(x
k
), provar que a
solu c ao desse problema e
x = x
k
B
1
k
(g
k
+A
T
k
z)
onde
z = (A
k
B
1
k
A
T
k
)
1
(h
k
A
k
B
1
k
g
k
).
Discutir a praticidade dessas f ormulas. Por exemplo, analisar o que acontece
em rela c ao ` a conserva c ao da possvel esparsidade de A
k
e B
k
.
12.9 Outras fun c oes de merito
No Algoritmo 12.5.1 usamos a fun c ao de merito
(x, , ) = (x, ) + (1 )(x),
com (x) = |h(x)|
2
2
/2. Usar esta fun c ao, com o par ametro entre 0 e 1, e
essencialmente equivalente a usar
ATICA SEQ
UENCIAL
k
= 0, o que, por outro lado, permite uma leitura mais simples da teoria.
Agora, usar
k
= 0 corresponde a trabalhar com a fun c ao de merito
quad
(x, ) = f(x) +(x). (12.9.2)
Claramente,
quad
e a cl assica fun c ao de penalidade quadr atica. Com a in-
trodu c ao dos multiplicadores na fun c ao (12.9.2) esperamos que o par ametro
de penalidade n ao precise crescer muito, eliminando possveis fontes de
instabilidade numerica, o que n ao e reetido numa teoria de convergencia
global.
No entanto, podemos analisar o comportamento da fun c ao
quad
sob outro
aspecto. Como sabemos, a aplica c ao do metodo de Newton ao sistema
(12.8.3), tem propriedades de convergencia local quadr atica, no par (x, ),
quando a Jacobiana na solu c ao e n ao singular. Nessas condi c oes, o metodo
de Newton pode ser interpretado como a resolu c ao recursiva do subprob-
lema de programa c ao quadr atica (12.1.4) com as matrizes B
k
sendo as Hes-
sianas dos Lagrangianos. Como este metodo e localmente r apido, e de-
sej avel que, dado x
k
, a solu c ao x aportada pela resolu c ao de (12.1.4) seja
aceita como nova itera c ao x
k+1
e que n ao seja necess ario apelar, neste caso,
para diminui c oes do raio de conan ca . Agora, para que isso aconte ca, e
necess ario, pelo menos, que a fun c ao de merito calculada em ( x,
) (solu c ao
de (12.1.4) e multiplicador correspondente) seja menor que a mesma fun c ao
em (x
k
,
k
). Caso contr ario, a fun c ao de merito estaria recomendando re-
jeitar um ponto essencialmente bom.
Infelizmente, muitas fun c oes de merito tem essa desagrad avel propriedade,
que e denominada efeito Maratos. Ver [131]. O efeito Maratos reete, as-
sim, um conito entre o ponto de vista Cauchy, que exige diminui c ao de uma
fun c ao objetivo, e o ponto de vista Newton que produz convergencia local
r apida. Em particular, a fun c ao de merito
quad
sofre dessa propriedade e
inibe convergencia r apida do metodo de Newton em circunst ancias onde ela
seria perfeitamente possvel.
Exerccio 12.17: Considerar o problema
Minimizar x
2
sujeita a x
2
1
+x
2
2
= 1
e a fun c ao de merito
(x) = x
2
+ [x
2
1
+ x
2
2
1[ para sucientemente
grande de maneira que o minimizador de
seja (0, 1)
T
. Vericar o efeito
Maratos.
12.9. OUTRAS FUNC
OES DE M
ERITO 231
Diferenciabilidade, par ametros de penalidade moderados, simplicidade e
ausencia de efeito Maratos s ao qualidades desej aveis das fun c oes de merito
aplicadas a programa c ao quadr atica seq uencial. Vejamos como aparecem
(ou n ao) essas propriedades em outras fun c oes sugeridas na literatura.
(a) A fun c ao de penalidade com | |
1
, dada por
(x)
T
)
(x)
T
|
2
2
+|h(x)|
2
2
n ao tem efeito Maratos, e diferenci avel e simples. Porem, praticamente n ao
e usada porque seus minimizadores resultam tanto em minimizadores quanto
em maximizadores do problema original.
O Lagrangiano aumentado usado neste captulo e simples e diferenci avel.
No entanto, a modera c ao nos par ametros de penalidade e o efeito Maratos
dependem da escolha dos multiplicadores . No momento em que escrevemos
este captulo, a teoria de convergencia local do Algoritmo 12.5.1 n ao est a
completa, mas e previsvel que ela incluir a os seguintes resultados:
(a) Em condi c oes adequadas de regularidade local do problema (12.1.1) (i) o
subproblema (12.1.4) coincide com (12.2.3); (ii) (12.1.4) tem solu c ao unica;
(iii) com uma boa escolha dos multiplicadores
k
e das matrizes B
k
os
par ametros de penalidade
k
s ao todos maiores que um n umero positivo
xo e a solu c ao de (12.1.4) e aceita como pr oxima itera c ao x
k+1
.
(b) Nas condi c oes acima, se as B
k
s ao Hessianas dos Lagrangianos, a con-
vergencia de (x
k
,
k
) para (x
ATICA SEQ
UENCIAL
caso quase-Newton considerando apenas a vari avel x.
Exerccio 12.18: Discutir convergencia quadr atica ou superlinear na vari avel
x e no par (x, ). Qual e mais forte? Qual e mais desej avel? Dar exemplos
mostrando quando uma n ao implica a outra.
Exerccio 12.19: Schittkowski (1981) e Gill, Murray, Saunders e Wright
(1992), entre outros, estudaram o problema (12.1.1) na forma
Minimizar f(x)
sujeita a c(x) 0
(12.9.3)
Para construir uma fun c ao de merito, esses autores introduzem vari aveis de
folga nas restri c oes, apenas para efetuar a busca na fun c ao de merito
c
i
(x) = 0 c
i
(x) +s
i
= 0 , s
i
0 , i = 1, . . . , p
e ent ao
(x, , s) = f(x) +
T
(c(x) +s) +
2
|c(x) +s|
2
2
onde IR
p
e uma estimativa para os multiplicadores. Discutir as pro-
priedades dessa fun c ao.
Exerccio 12.20: Existem duas estrategias para a formula c ao dos sub-
problemas quadr aticos num metodo PQS aplicado a (12.9.3). Na primeira,
baseada em desigualdades, trabalha-se com problemas quadr aticos com re-
stri c oes lineares de desigualdade, e a decis ao acerca do conjunto de restri c oes
ativas e tomada internamente durante a resolu c ao do problema quadr atico.
A segunda estrategia, baseada em igualdades, consiste em xar-se a pri-
ori quais ser ao as restri c oes ativas e ent ao trabalhar com subproblemas
quadr aticos com restri c oes de igualdade. O conjunto de restri c oes ativas
I
k
1, . . . , p e atualizado a cada itera c ao pela an alise dos multiplicadores
de Lagrange do subproblema e pelo exame dos valores c
i
(x
k+1
) para i , I
k
.
ORICAS 233
12.10 Notas hist oricas
A primeira proposta de um metodo de programa c ao quadr atica seq uencial foi
feita por Wilson (1963) em sua tese de doutorado, para problemas convexos.
Ele trabalhou com subproblemas quadr aticos com restri c oes de desigualdade
e utilizou a pr opria matriz Hessiana do Lagrangiano no modelo quadr atico.
Como estimativa para os multiplicadores, Wilson utilizou os multiplicadores
do subproblema na itera c ao anterior.
A abordagem de Wilson foi retomada e interpretada por Beale (1967), orig-
inando o algoritmo SOLVER. Bard e Greenstadt (1969) reinterpretaram
SOLVER, mostrando que o algoritmo de Wilson-Beale pode ser dividido
em dois passos: primeiro xar os multiplicadores
k
e obter x(
k
) mini-
mizando o Lagrangiano do subproblema e a seguir obter
k+1
e a corre c ao
x(
k+1
) x(
k
) pela maximiza c ao deste mesmo Lagrangiano. Murray ([150],
[151]) estendeu os trabalhos anteriores, incluindo aproxima c oes quase-Newton
para a Hessiana do modelo quadr atico e estimativas diferentes para os multi-
plicadores de Lagrange. Alem disso, Murray tambem considerou a resolu c ao
parcial do subproblema e sugeriu uma busca linear a cada itera c ao utilizando
a fun c ao de penalidade quadr atica (ver tambem Gill e Murray(1974), cap.8,
parte III).
Biggs (1972, 1974, 1975) prop os uma varia c ao do metodo de Murray, com
subproblemas quadr aticos apenas com restri c oes de igualdade e sugeriu esti-
mativas especiais para os multiplicadores. Garca-Palomares e Mangasarian
(1976) sugeriram um metodo baseado em programa c ao quadr atica derivado
da aplica c ao de tecnicas quase-Newton ao sistema n ao linear proveniente
das condi c oes de otimalidade do problema original. Han (1976 e 1977) reto-
mou a ideia original de Wilson, trabalhando com restri c oes de desigualdade
nos subproblemas quadr aticos, mas sugerindo atualiza c oes quase-Newton
denidas positivas para a matriz Hessiana do Lagrangiano. As estimativas
para os multiplicadores s ao tomadas como os multiplicadores da itera c ao
anterior. No algoritmo de Han, superlinearmente convergente sob certas
hip oteses, a fun c ao de penalidade exata
1
e usada pela primeira vez como
fun c ao de merito.
Powell (1977 e 1978) prop os um algoritmo de programa c ao quadr atica seq uencial
semelhante ao de Han, com aproxima c oes quase-Newton denidas positivas
para a Hessiana do Lagrangiano e tambem superlinearmente convergente
sob algumas hip oteses. Nesta linha de trabalho baseada em aproxima c oes
quase-Newton para a matriz Hessiana do Lagrangiano destacam-se as es-
trategias de Powell (1977), Murray e Wright (1978), Schittkowski (1980) e
Boggs, Tolle e Wang (1982). Como armamos em outra se c ao, Boggs, Tolle
234 CHAPTER 12. PROGRAMAC
AO QUADR
ATICA SEQ
UENCIAL
e Wang obtiveram uma condi c ao necess aria e suciente para convergencia
superlinear do tipo da condi c ao de Dennis-More para sistemas n ao lineares.
Maratos (1978) e Chamberlain (1979) descrevem algumas diculdades decor-
rentes do uso da fun c ao de penalidade exata baseada em | |
1
como fun c ao
de merito. Chamberlain, Lemarechal, Pederson e Powell (1980) tambem
analisam alguns aspectos dessa penalidade exata como fun c ao de merito.
Uma proposta para evitar o efeito Maratos, baseada em buscas lineares n ao
mon otonas, e feita por Panier e Tits (1991) e complementada por Bonnans,
Panier, Tits e Zhou (1992).
Murray e Wright (1980) fazem uma discuss ao de diferentes formula c oes para
o subproblema. Metodos de programa c ao quadr atica seq uencial cujo sub-
problema lida apenas com restri c oes de igualdade (xando-se a priori as
restri c oes ativas) s ao tratados por Wright (1976), que introduziu o uso da
fun c ao Lagrangiano aumentado como fun c ao de merito, e por Murray e
Wright (1978).
Cabe observar que muitos metodos para minimiza c ao de fun c oes de penal-
idade n ao diferenci aveis tem a mesma forma que metodos de programa c ao
quadr atica seq uencial nos quais a dire c ao de busca e obtida pela decom-
posi c ao em dois passos ortogonais: um no n ucleo e outro no espa co linha do
Jacobiano das restri c oes. Nesta classe se enquadram os metodos de Cole-
man (1979), Coleman e Conn (1980 e 1984), Fontecilla (1983) e Nocedal
e Overton (1985). Em termos de atualiza c oes para a matriz Hessiana do
modelo quadr atico, Fontecilla (1983), Colemman e Conn (1984) e Nocedal
e Overton (1985) conservaram as matrizes B
k
denidas positivas apenas no
subespa co tangente ` as restri c oes. J a Celis, Dennis e Tapia (1985) trabal-
haram com metodos de regi ao de conan ca, nos quais n ao se precisa de
matrizes positivas denidas como garantia para existencia de solu c ao nos
subproblemas.
Powell e Yuan (1986) trabalharam com Lagrangiano aumentado como fun c ao
de merito, em problemas com restri c oes de igualdade. Os multiplicadores s ao
estimados por quadrados mnimos, sendo portanto tratados como fun c oes
do ponto atual. Neste trabalho, Powell e Yuan provam propriedades de
convergencia global e local.
Outras fun c oes de merito suaves foram consideradas por Dixon (1979),
Di Pillo e Grippo (1979), Schittkowski (1981), Boggs e Tolle (1984,1985),
Bartholomew-Biggs (1987) e Gill, Murray, Saunders e Wright (1992).
Os multiplicadores como vari aveis adicionais, com busca linear com rela c ao
ao vetor aumentado que contem as vari aveis originais e os multiplicadores
foram usados por Tapia (1977) no contexto de Lagrangiano aumentado e sub-
problemas irrestritos. Tambem foi aplicada por Schittkowski (1981) e Gill,
12.10. NOTAS HIST
ORICAS 235
Murray, Saunders e Wright (1992) em algoritmos de programa c ao quadr atica
seq uencial.
Em programa c ao quadr atica seq uencial, e possvel truncar o procedimento
iterativo para resolu c ao do subproblema quadr atico sem alterar a taxa de
convergencia assint otica. Neste sentido, criterios pr aticos de parada s ao
apresentados por Dembo e Tulowitzki (1985), Fontecilla (1985, 1990) e Yabe,
Yamaki e Takahashi (1991).
Para problemas de grande porte, Nickel e Tolle (1989) prop oem um algoritmo
baseado no problema dual associado ao subproblema quadr atico.
Com o objetivo de contornar a possibilidade de se ter subproblemas in-
factveis, Burke (1989) prop oe um metodo robusto e est avel com propriedades
de convergencia global. Outros trabalhos combinam ideias de programa c ao
quadr atica seq uencial, no sentido de usar resolu c oes aproximadas do sistema
linear newtoniano associado ` as condi c oes de otimalidade com ideias de pon-
tos interiores para restri c oes de desigualdade. Ver [117], e suas referencias.
Apesar da extensa teoria desenvolvida em torno dos metodos principalmente
em aspectos relativos a convergencia, pouco tem sido feito em termos de
experimentos numericos comparativos. Isto se deve, provavelmente, ` a di-
versidade de detalhes pr oprios da implementa c ao dos diferentes algoritmos
existentes, o que os torna pouco compar aveis. O trabalho de Shanno e
Phua (1989) e pioneiro neste sentido. Eles comparam o desempenho de
um algoritmo geral de de programa c ao quadr atica seq uencial combinando
diferentes escolhas da atualiza c ao secante para a matriz Hessiana do modelo
quadr atico, diferentes maneiras de estimar os multiplicadores e diferentes
fun c oes de merito. Como conclus oes, Shanno e Phua recomendam uma
variante do algoritmo b asico de Boggs e Tolle (1984) e observam que as
experiencias numericas indicam a necessidade de se investir na obten c ao de
melhores estimativas para os multiplicadores de Lagrange.
O algoritmo no qual nos concentramos neste captulo, essencialmente intro-
duzido em [98], re une v arias das caractersticas desej aveis em bons metodos
de programa c ao quadr atica seq uencial:
(a) O uso de regi oes de conan ca, que aumentam a estabilidade dos
subproblemas quando e necess ario reduzir o raio.
(b) Aplicabilidade a igualdades e desigualdades, atraves da formula c ao
(12.1.1).
(c) O uso do Lagrangiano aumentado, diferenci avel, simples, est avel e,
provavelmente, livre do efeito Maratos.
(d) Estrategia n ao mon otona para o par ametro de penalidade.
236 CHAPTER 12. PROGRAMAC
AO QUADR
ATICA SEQ
UENCIAL
(e) Os subproblemas n ao precisam ser resolvidos exatamente, o que
viabiliza a aplicabilidade a problemas de grande porte.
(f) Embora n ao tenha sido destacado neste captulo, a existencia de se-
gundas derivadas de f e h n ao e necess aria. (Em [169] encontramos
exemplos de problemas importantes de otimiza c ao onde essa car-
acterstica e relevante.)
Bibliography
[1] J. Abadie e J. Carpentier (1969): Generalization of the Wolfe Re-
duced Gradient Method to the Case of Nonlinear Constraints, em
Optimization (R.Fletcher ed.), Academic Press, London e New York,
37-47.
[2] J. Abadie e J. Carpentier (1967): Some numerical experiments with
the GRG method for nonlinear programming, Paper HR7422, Elec-
tricite de France.
[3] I. Adler, M. Resende, G. Veiga e N. Karmarkar (1989): An imple-
mentation of Karmarkars algorithm for linear programming, Math-
ematical Programming 44, 297-335.
[4] Y. Bard e J. L. Greenstadt (1969): A Modied Newton Method
for Optimization with Equality Constraints, em Optimization (R.
Fletcher ed.), Academic Press, London e New York, 299-306.
[5] E. R. Barnes (1986): A variation of Karmarkars algorithm for solving
linear programming problems, Mathematical Programming 36, 174-
182.
[6] R. Barrett, M. Berry, T.F. Chan, J. Demmel, J.Donato, J. Dongarra,
V. Eijkhout, R. Pozo, Ch. Romine e H. van derVorst (1994): Tem-
plates for the solution of linear systems: buildin gblocks for iterative
methods, SIAM Publications, Philadelphia.
[7] M. C. Bartholomew-Biggs (1987): Recursive quadratic programming
methods based on the augmented Lagrangian, Mathematical Pro-
gramming Studies 31, 21-41.
[8] J. Barzilai e J.M. Borwein (1988): Two point step size gradient meth-
ods, IMA Journal of Numerical Analysis 8, 141-148.
237
238 BIBLIOGRAPHY
[9] M. S. Bazaraa, J. J. Jarvis e H. D. Sherali (1977): Linear program-
ming and network ows, John Wiley and sons, New York, Chichester,
Brisbane, Toronto e Singapore.
[10] E. M. L. Beale (1967): Numerical Methods, em Nonlinear Program-
ming (J. Abadie ed.), North-Holland, Amsterdam, 132-205.
[11] D.P. Bertsekas (1982): Projected Newton methods for optimization
problems with simple constraints, SIAM Journal on Control and Op-
timization 20, 141-148.
[12] R. H. Bielschowsky, A. Friedlander, F. M. Gomes, J. M. Martnez
e M. Raydan (1997): An adaptive algorithm for bound constrained
quadratic minimization, Investigaci on Operativa, Vol 7, N umero 12,
pp. 67-102.
[13] M. C. Biggs (1972): Constrained minimization using recursive equal-
ity quadratic programming, em Numerical Methods for Nonlinear
Optimization (F. A. Lootsma ed.), Academic Press, London e New
York, 411-428.
[14] M. C. Biggs (1974): The Development of a Class of Constrained Opti-
mization Algorithms and their Application to the Problem of Electric
Power Scheduling, Ph. D. Thesis, University of London.
[15] M. C. Biggs (1975): Constrained minimization using recursive
quadratic programming: some alternative subproblem formulation,
em Towards Global Optimization (L. C. W. Dixon e G. P. Szeg o,
eds.), North-Holland, Amsterdam, 341-349.
[16] A. Bj orck (1987): Least squares methods, em Handbook of Numerical
Analysis, Vol 1 (P. G. Ciarlet e J. L. Lions, eds.), Elsevier-North
Holland, Amsterdam.
[17] P. T. Boggs e J. W. Tolle (1984): A family of descent functions for
constrained optimization, SIAM Journal on Numerical Analysis 21,
1146-1161.
[18] P. T. Boggs e J. W. Tolle (1985): An ecient strategy for utilizing
a merit function in nonlinear programming algorithms, Report 85-5,
Department of Operations Research and Systems Analysis, Univer-
sity of North Carolina.
BIBLIOGRAPHY 239
[19] P. T. Boggs, J. W. Tolle e P. Wang (1982): On the local conver-
gence of quasi-Newton methods for constrained optimization, SIAM
Journal on Control and Optimization 20, 161-171.
[20] J. F. Bonnans, E. R. Panier, A. L. Tits e J. L. Zhou (1992): Avoid-
ing the Maratos eect by means of a nonmonotone line search II.
Inequality constrained problems - feasible iterates, SIAM Journal on
Numerical Analysis 29, 1187-1202.
[21] M. J. Box, D. Davies e W. H. Swann (1970): Nonlinear Optimiza-
tion Techniques, Chemical Industries Monograph 5, Oliver and Boyd,
Edinburgh.
[22] P. N. Brown e Y. Saad (1990): Hybrid Krylov methods for nonlin-
ear systems of equations, SIAM Journal on Scientic and Statistical
Computing 11, 450-481.
[23] P. N. Brown e Y. Saad (1994): Convergence theory of nonlinear
Newton-Krylov methods, SIAM Journal on Optimization 4, 297-330.
[24] C. G. Broyden (1965): A class of methods for solving nonlinear si-
multaneous equations, Mathematics of Computation 19, 577-593.
[25] C. G. Broyden, J. E. Dennis e J. J. More (1973): On the local and
superlinear convergence of quasi-Newton methods, Journal of the In-
stitute of Mathematics and its Applications 12, 223-245.
[26] J. R. Bunch e B. N. Parlett (1971): Direct methods for solving sym-
metric indenite systems of linear equations, SIAM Journal on Nu-
merical Analysis 8, 639-655.
[27] J. V. Burke (1989): A Sequential Quadratic Programming Method
for Potentially Infeasible Mathematical Problems, Journal of Math-
ematical Analysis and Applications 139, 319-351.
[28] J. V. Burke e J. J. More, On the identication of active constraints,
SIAM Journal on Numerical Analysis 25, (1988) 1197-1211.
[29] M. D. Canon, C. D. Culllum e E. Polak (1970): Theory of Optimal
Control and Mathematical Programming, McGraw Hill, New York.
[30] M. R. Celis, J. E. Dennis e R. A. Tapia (1985): A trust region strat-
egy for nonlinear equality constrained optimization, em Numerical
Optimization 1984, (P. T. Boggs, R. H. Byrd e R. B. Schnabel eds.),
SIAM, Philadelphia, 71-82.
240 BIBLIOGRAPHY
[31] R. M. Chamberlain (1979): Some examples of cycling in variable met-
ric methods for constrained minimization, Mathematical Program-
ming 16, 378-383.
[32] R. M. Chamberlain, C. Lemarechal, H. C. Pederson e M. J. D. Pow-
ell (1980): The watchdog technique for forcing convergence in algo-
rithms for constrained optimization, Report DAMTP 80/NA1, Uni-
versity of Cambridge.
[33] I. E. Chambouleyron, J. M. Martnez, A. C. Moretti e M. Mulato
(1997): The retrieval of the optical constants and the thickness of
thin lms from transmission spectra, Applied Optics 36, pp. 8238-
8247.
[34] V. Chvatal (1980): Linear programming, W. H. Freeman and Com-
pany, New York / San Francisco.
[35] T. F. Coleman (1979): A Superlinear Penalty Function Method to
Solve the Nonlinear Programming Problem, Ph. D. Thesis, University
of Waterloo.
[36] T. F. Coleman e A. R. Conn (1982): Nonlinear programming via an
exact penalty function method: asymptotic analysis, Mathematical
Programming 24, 123-136.
[37] T. F. Coleman e A. R. Conn (1982): Nonlinear programming via an
exact penalty function method: global analysis, Mathematical Pro-
gramming 24, 137-161.
[38] T. F. Coleman e A. R. Conn (1984): On the local convergence of a
quasi-Newton method for the nonlinear programming problem, SIAM
Journal on Numerical Analysis 21, 755-769.
[39] T. F. Coleman e L. A. Hulbert (1989): A direct active set algorithm
for large sparse quadratic programs with simple bounds, Mathemat-
ical Programming 45, 373-406.
[40] A. R. Conn, N. I. M. Gould, A. Sartenaer e Ph. L. Toint (1993):
Global convergence of a class of trust region algorithms for optimiza-
tion using inexact projections on convex constraints, SIAM Journal
on Optimization 3, 164-221.
BIBLIOGRAPHY 241
[41] A. R. Conn, N. I. M. Gould e Ph. L. Toint (1988): Global convergence
of a class of trust region algorithms for optimization with simple
bounds, SIAM Journal on Numerical Analysis 25 433 - 460. Ver,
tambem, SIAM Journal on Numerical Analysis 26 (1989) 764 - 767.
[42] A. R. Conn, N. I. M. Gould e Ph. L. Toint (1989): Testing a class of
methods for solving minimization problems with simple bounds on
the variables, Mathematics of Computation 50, 399 - 430.
[43] A. R. Conn, N. I. M. Gould e Ph. L. Toint (1992): LANCELOT:
a Fortran package for large-scale nonlinear optimization (release A),
Springer Verlag, Berlin and New York.
[44] A. R. Conn, N. I. M. Gould e Ph. L. Toint (1991): A globally conver-
gent augmented Lagrangian algorithm for optimization with general
constraints and simple bounds, SIAM Journal on Numerical Analysis
28, 545 - 572.
[45] L. Contesse e J. Villavicencio (1982): Resoluci on de un modelo
econ omico de despacho de carga electrica mediante el metodo de pe-
nalizaci on Lagrangeana con cotas, Revista del Instituto Chileno de
Investigaci on Operativa 1982, 80-112.
[46] G. B. Dantzig (1963): Linear programming and extensions, Princeton
University Press, Princeton, NJ.
[47] W. C. Davidon (1959): Variable metric method for minimization,
AEC Research and Development Report ANL (Argonne National
Laboratory) - 5990.
[48] R. S. Dembo, S. C. Eisenstat e T. Steihaug (1982): Inexact Newton
methods, SIAM Journal on Numerical Analysis 19, 400408.
[49] R. S. Dembo e U. Tulowitzki (1985): Sequential Truncated Quadratic
Programming Methods, em Numerical Optimization 1984 (P. T.
Boggs, R. H. Byrd e R. B. Schnabel eds.), SIAM, Philadelphia, 83-
101.
[50] J. E. Dennis, N. Echebest, M. Guardarucci, J. M. Martnez, H. D.
Scolnik e C. Vacino (1991): A Curvilinear Search Using Tridiagonal
Secant Updates for Unconstrained Optimization, SIAM Journal on
Optimization 1, 352-372.
242 BIBLIOGRAPHY
[51] J. E. Dennis, M. El-Alem e M. C. Maciel (1995): A global conver-
gence theory for general trust-region-based algorithms for equality
constrained optimization, por aparecer em SIAM Journal on Opti-
mization.
[52] J. E. Dennis e J. J. More (1974): A Characterization of Superlinear
Convergence and its Application to Quasi-Newton Methods, Mathe-
matics of Computation 28, 546-560.
[53] J. E. Dennis e R.B. Schnabel (1979): Least change secant updates
for quasi-Newton methods, SIAM Review 21, 443-459.
[54] J. E. Dennis e Schnabel (1983): Numerical Methods for Uncon-
strained Optimization and Nonlinear Equations, Prentice-Hall, En-
glewood Clis.
[55] J. E. Dennis e H. F. Walker (1981): Convergence theorems for least-
change secant update methods, SIAM Journal on Numerical Analysis
18, 949-987.
[56] P. Deuhard (1991): Global inexact Newton methods for very large
scale nonlinear problems, Impact of Computing in Science and Engi-
neering 3, 366393.
[57] P. Deuhard, R. Freund A. Walter (1990): Fast secant methods for
the iterative solution of large nonsymmetric linear systems, Impact
of Computing in Science and Engineering 2, 244-276.
[58] I. I. Dikin (1967): Iterative solution of problems of linear and
quadratic programming, Soviet Math. Dokl. 8, 674-675.
[59] M. A. Diniz - Ehrhardt e J. M. Martnez (1993): A parallel pro-
jection method for overdetermined nonlinear systems of equations,
Numerical Algorithms 4, 241-262.
[60] G. Di Pillo e L. Grippo (1979): A new class of augmented Lagrangians
in nonlinear programming, SIAM Journal on Control and Optimiza-
tion 17, 618-628.
[61] L. C. W. Dixon (1979): Exact penalty functions in nonlinear pro-
gramming, Report 103, Numerical Optimisation Centre, Hateld
Polytechnique.
BIBLIOGRAPHY 243
[62] I. S. Du, A. M. Erisman e J. K. Reid (1986): Direct methods for
sparse matrices, Clarendon Press, Oxford.
[63] S. C. Eisenstat e H. F. Walker (1994): Globally convergent inexact
Newton methods, por aparecer em SIAM Journal on Optimization.
[64] M. El-Alem (1992): A robust trust region algorithm with a non-
monotone penalty parameter scheme for constrained optimization,
Technical Report 92-30, Department of Computational and Applied
Mathematics, Rice University, Houston.
[65] A. V. Fiacco (1983): Introduction to sensitivity and stability analysis
in nonlinear programming, Academic Press, New York.
[66] A. V. Fiacco e G. P. McCormick (1990): Nonlinear programming: se-
quential unconstrained minimization techniques, SIAM Publications,
Philadelphia.
[67] R. Fletcher (1970): A class of methods for nonlinear programming
with termination and convergence properties, em Integer and Non-
linear Programming (J. Abadie, ed.), North Holland, Amsterdam,
157-175.
[68] R. Fletcher (1974): Methods Related to Lagrangian Functions,
em Numerical Methods for Constrained Optimization (P.E.Gill e
W.Murray eds.), 235-239.
[69] R. Fletcher (1987): Practical methods for optimization, John Wiley
& Sons, Chichester.
[70] R. Fletcher e M. J. D. Powell (1963): A rapidly convergent descent
method for minimization Computer Journal 6, 163-168.
[71] R. Fontecilla (1983): A general convergence theory for quasi-Newton
methods for constrained optimization, Ph. D. Dissertation, Mathe-
matical Sciences Department, Rice University, Houston.
[72] R. Fontecilla (1985): On inexact quasi-Newton methods for con-
strained optimization, em Numerical Optimization 1984 (P. T. Boggs,
R. H. Byrd e R. B. Schnabel eds.), 102-118, SIAM, Philadelphia.
[73] R. Fontecilla (1990): Inexact secant methods for nonlinear con-
strained optimization, SIAM Journal on Numerical Analysis 27, 154-
165.
244 BIBLIOGRAPHY
[74] A. Forsgren e W. Murray (1993): Newton methods for large-scale
linear equality constrained minimization, SIAM Journal on Matrix
Analysis and applications 14, 560-587.
[75] A. Forsgren e W. Murray (1995): Newton methods for large-scale lin-
ear inequality constrained minimization, Technical Report, Systems
Optimization Laboratory, Stanford University.
[76] A. Friedlander, M. A. Gomes-Ruggiero, D. N. Kozakevich, J.M.
Martnez e S.A. Santos (1995): Solving nonlinear systems of equa-
tions by means of quasi-Newton methods with a nonmonotone strat-
egy, Relat orio tecnico, Instituto de Matem atica, Universidade Estad-
ual de Campinas.
[77] A. Friedlander, C. Lyra, H. M. Tavares e E. L. Medina (1989): Op-
timization with staircase structure An application to generation
scheduling, Computers and Operations Research 17, 143-152.
[78] A. Friedlander e J.M. Martnez (1989): On the numerical solution
of bound constrained optimization problems, RAIRO Operations Re-
search 23, 319-341.
[79] A. Friedlander e J.M. Martnez (1994): On the maximization of a
concave quadratic function with box constraints, SIAM Journal on
Optimization 4, 177-192.
[80] A. Friedlander, J.M. Martnez, B. Molina e M. Raydan (1994): Gra-
dient methods with retards, por aparecer em SIAM Journal on Nu-
merical Analysis.
[81] A. Friedlander, J.M. Martnez e M. Raydan (1995): A new method
for large-scale box constrained quadratic minimization problems, Op-
timization Methods and Software 5, pp. 57-74.
[82] A. Friedlander, J.M. Martnez e S.A. Santos (1994): A new trust
region algorithm for bound constrained minimization, Applied Math-
ematics and Optimization 30, 235-266.
[83] A. Friedlander, J. M. Martnez e S. A. Santos (1994): On the reso-
lution of linearly constrained convex minimization problems, SIAM
Journal on Optimization 4, 331-339.
BIBLIOGRAPHY 245
[84] A. Friedlander, J. M. Martnez e S. A. Santos (1995): Resolution
of linear complementarity problems using minimization with simple
bounds, Journal of Global Optimization 6, pp. 1-15.
[85] A. Friedlander, J. M. Martnez e S. A. Santos (1995): A new strategy
for solving variational inequalities in bounded polytopes, Numerical
Functional Analysis and Optimization 16, pp. 653-668.
[86] U. M. Garca-Palomares e O. L. Mangasarian (1976): Superlinearly
convergent quasi-Newton algorithms for nonlinearly constrained op-
timization problems, Mathematical Programming 11, 1-13.
[87] D. M. Gay (1979): Some convergence properties of Broydens
method, SIAM Journal on Numerical Analysis 16, 623 - 630.
[88] D. M. Gay (1981): Computing optimal locally constrained steps,
SIAM Journal on Scientic and Statistical Computing 2, 186-197.
[89] D. M. Gay (1984): A trust-region approach to linearly constrained
optimization, em Numerical Analysis (D. F. Griths, ed.), Lecture
Notes in Mathematics 1066, Springer-Verlag, Berlin, Heidelberg, New
York, 72-105.
[90] A. George e E. Ng (1987): Symbolic factorization for sparse Gaussian
elimination with partial pivoting, SIAM Journal on Scientic and
Statistical Computing 8, 877-898.
[91] F. Giannessi (1994): General optimality conditions via a separation
scheme, em Algorithms for continuous optimization (E. Spedicato,
ed.), Kluwer Academic Publishers, The Netherlands, 1-23.
[92] P. E. Gill, W. Murray (1974): Newton-type methods for uncon-
strained and linearly constrained optimization, Mathematical Pro-
gramming 7, 311-350.
[93] P. E. Gill, W. Murray, M. A. Saunders e M. H. Wright (1992): Some
theoretical properties of an augmented Lagrangian function, em Ad-
vances in Optimization and Parallel Computing (P. E. Pardalos ed.),
127-143, Elsevier, Amsterdam.
[94] P. E. Gill, W. Murray, M. A. Saunders e M. H. Wright (1991): Inertia-
controlling methods for general quadratic programming, SIAM Re-
view 33, 1-36.
246 BIBLIOGRAPHY
[95] P. E. Gill, W. Murray e M. H. Wright (1981): Practical Optimization,
Academic Press, London e New York.
[96] G. H. Golub e Ch. F. Van Loan (1989): Matrix Computations, The
Johns Hopkins University Press, Baltimore and London.
[97] D. Goldfarb (1969): Extensions of Davidons variable metric method
to maximization under linear inequality and equality constraints,
SIAM Journal on Applied Mathematics 17, 739-764.
[98] F. M. Gomes, M. C. Maciel e J. M. Martnez (1995): Successive
quadratic programming for minimization with equality and inequal-
ity constraints using trust regions, augmented Lagrangians and non-
monotone penalty parameters, por aparecer em Mathematical Pro-
gramming.
[99] H. S. Gomes e J. M. Martnez (1991): A Numerically Stable
Reduced-Gradient Type Algorithm for Solving Large-Scale Linearly
Constrained Minimization Problems, Computers and Operations
Research, 18, 1731.
[100] M. A. GomesRuggiero e J. M. Martnez (1992): The Column
Updating Method for solving nonlinear equations in Hilbert space,
RAIRO Mathematical Modelling and Numerical Analysis 26, 309-330.
[101] M. A. GomesRuggiero, J. M. Martnez e A. C. Moretti (1992): Com-
paring algorithms for solving sparse nonlinear systems of equations,
SIAM Journal on Scientic and Statistical Computing 13, 459 - 483.
[102] C. C. Gonzaga (1989): Algoritmos de pontos interiores para pro-
grama c ao linear, 17