Opti2 2010

Introduccin a la optimizacin no lineal
Patricia Saavedra Barrera

1
11 de abril de 2012
1
Departamento de Matemticas Universidad Autnoma Metropolitana 09340,
Iztapalapa, Mxico
2
ndice general
1. Modelos de optimizacin 7
1.1. Introduccin . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.2. Algunos modelos de optimizacin . . . . . . . . . . . . . . . . 13
1.3. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2. Optimizacin sin restricciones. 23
2.1. Un problema de mnimos cuadrados . . . . . . . . . . . . . . . 23
2.2. Condiciones de primer orden . . . . . . . . . . . . . . . . . . . 25
2.3. Condiciones de segundo orden . . . . . . . . . . . . . . . . . . 27
2.4. Funciones cuadrticas . . . . . . . . . . . . . . . . . . . . . . . 28
2.5. Mnimos globales . . . . . . . . . . . . . . . . . . . . . . . . . 35
2.5.1. Funciones coercivas . . . . . . . . . . . . . . . . . . . . 35
2.5.2. Funciones convexas . . . . . . . . . . . . . . . . . . . . 38
2.6. Caractersticas generales de los algoritmos de descenso . . . . 40
2.7. Tipo de convergencia . . . . . . . . . . . . . . . . . . . . . . . 41
2.8. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
3. Mtodos de descenso 47
3.1. Introduccin . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
3.2. Bsqueda lineal . . . . . . . . . . . . . . . . . . . . . . . . . . 51
3.2.1. Bsqueda lineal no exacta . . . . . . . . . . . . . . . . 52
3.2.2. Algoritmo de Armijo . . . . . . . . . . . . . . . . . . . 53
3.2.3. Interpolacin cuadrtica . . . . . . . . . . . . . . . . . 54
3.3. Mtodo de mximo descenso . . . . . . . . . . . . . . . . . . . 55
3.3.1. Convergencia del mtodo de mximo descenso . . . . . 57
3.3.2. Aplicacin al caso no lineal . . . . . . . . . . . . . . . . 60
3.4. Mtodo de Newton . . . . . . . . . . . . . . . . . . . . . . . . 62
3.4.1. Algoritmo de Newton . . . . . . . . . . . . . . . . . . . 62
3
4 NDICE GENERAL
3.4.2. Caso cuadrtico . . . . . . . . . . . . . . . . . . . . . . 63
3.4.3. Caso general . . . . . . . . . . . . . . . . . . . . . . . . 64
3.4.4. Ejemplos . . . . . . . . . . . . . . . . . . . . . . . . . . 66
3.4.5. Modicaciones al mtodo de Newton . . . . . . . . . . 67
3.5. Mtodo de gradiente conjugado . . . . . . . . . . . . . . . . . 68
3.5.1. Algoritmo de Gradiente Conjugado . . . . . . . . . . . 72
3.5.2. Algoritmo gradiente conjugado: caso no lineal . . . . . 76
3.6. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
4. Mnimos cuadrados no-lineales 81
4.1. Ajuste no-lineal . . . . . . . . . . . . . . . . . . . . . . . . . . 82
4.2. Condiciones de primero y segundo orden . . . . . . . . . . . . 84
4.3. Mtodo de Gauss-Newton . . . . . . . . . . . . . . . . . . . . 85
4.4. Caso de residuos grandes . . . . . . . . . . . . . . . . . . . . . 87
4.5. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
5. Optimizacin con restricciones 89
5.1. Introduccin . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
5.2. Restricciones de igualdad . . . . . . . . . . . . . . . . . . . . . 92
5.3. Caso de restricciones de desigualdad . . . . . . . . . . . . . . . 103
5.4. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113
6. Mtodo de Newton para problemas con restricciones 119
6.1. Mtodo de Newton . . . . . . . . . . . . . . . . . . . . . . . . 119
6.1.1. Caso de restricciones lineales de igualdad . . . . . . . . 120
6.1.2. Mtodo de Newton . . . . . . . . . . . . . . . . . . . . 121
6.1.3. Algoritmo de Newton . . . . . . . . . . . . . . . . . . . 122
6.2. Caso de restricciones de desigualdad . . . . . . . . . . . . . . . 126
6.3. Mtodo de Frank-Wolfe . . . . . . . . . . . . . . . . . . . . . . 131
6.4. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132
Prlogo
Esta obra est diseada para ser una introduccin a la optimizacin no
lineal, presentando tanto los aspectos tericos como numricos, a travs de la
modelacin matemtica de algunos problemas sencillos que se presentan en
el mundo real, como el problema del portafolio de acciones. Los ejemplos se
han seleccionado no slo con un afan ilustrativo sino para motivar al alumno
al estudio de algunos temas particulares como la programacin convexa o
geomtrica.
Los antecedentes que se requieren son clculo diferencial de varias vari-
ables, un buen curso de lgebra lineal que incluya formas cuadrticas y vec-
tores y valores propios de matrices simtricas, y un primer curso de anlisis
numrico. El libro est dividido en dos partes: en la primera se estudia la
optimizacin no lineal sin restricciones y en la segunda parte se trata la
optimizacin no lineal con restricciones.
En el primer captulo se presentan algunos problemas de optimizacin
y su modelacin matemtica; en el captulo 2 se dan las condiciones nece-
sarias y sucientes para tener un punto mnimo o mximo. En el captulo
3, se presentan los algoritmos ms importantes para aproximar estos pun-
tos. En el captulo 4 se trata el ajuste no lineal de datos y funciones. En
el captulo 5 se dan condiciones necesarias y sucientes para que un proble-
ma de optimizacin no lineal con restricciones de igualdad y desigualdad no
lineales admita una solucin, las llamadas condiciones de Kuhn-Tucker. Por
ltimo, en el captulo 6 se presentan el mtodo de Newton para problemas
con restricciones lineales de igualdad y desigualdad y el mtodo de Wolfe
para transformar un problema de programacin cuadrtica con restricciones
lineales en un problema de programacin lineal. Cada captulo cuenta al nal
con una lista de ejercicios.
5
6 NDICE GENERAL
Captulo 1
Modelos de optimizacin
1.1. Introduccin
Los adelantos en la computacin permiten actualmente a los cientcos
estudiar sistemas fsicos, biolgicos y sociales cada vez ms complejos. La
modelacin matemtica es una herramienta sencilla, sistemtica y poderosa
para manejar la numerosa informacin que se requiere para entender dichos
sistemas. A partir de la segunda mitad de este siglo, se han multiplicado las
ramas del conocimiento que usan la modelacin matemtica como parte de
su metodologa. Las aplicaciones de esta ciencia son numerossimas: desde el
estudio de las protenas hasta el trnsito areo; desde el manejo de acciones en
una casa de bolsa hasta la prediccin de resultados en una eleccin popular.
Qu es un modelo?
Por qu los anillos de Saturno no caen sobre este planeta? Piense un
momento; ahora intente reconstruir los pasos que usted sigui para responder
a la pregunta. Posiblemente, lo primero que hizo fue imaginar a Saturno con
sus anillos. Imaginar es una forma de ver con la mente. Despus, a lo mejor,
pens que algo en comn tienen la luna y la tierra y Saturno y sus anillos; por
ltimo, concluy que la fuerza gravitacional debe jugar un papel importante
en la explicacin.
Imagin un anillo, dos o tres? Eran slidos, con espesor, o densas nubes
de polvo? Cada lector se representar a Saturno de una manera diferente. La
imagen que nos venga a la mente es producto de los conocimientos que se
7
8 CAPTULO 1. MODELOS DE OPTIMIZACIN
hayan acumulado desde la primaria y de la imaginacin que se tenga; de ella
depender su explicacin sobre al hecho de que los anillos no caigan sobre
Saturno. Cada representacin aproximada de Saturno y sus anillos es un
modelo ms de este sistema.
La palabra modelo ser usada en este artculo en un sentido ms amplio
que la denicin del pequeo Larousse: Objeto que se reproduce imitando
a otro objeto o representacin a escala de un objeto. Entenderemos aqu
por modelo a una representacin, por medio de un objeto, imagen, smbolo o
concepto, de otro objeto o de un proceso fsico, biolgico, econmico, etctera.
Establecer modelos forma parte del mtodo cientco que se ha usado desde
el Renacimiento para generar conocimiento en Occidente y se debe entre
otros a Bacon, Galileo y Descartes. A continuacin presentamos a grandes
rasgos y en forma esquemtica por medio de la Figura 1.1 en que consiste
este mtodo. Este diagrama fue tomado de un artculo que escribi Diego
Bricio Hernndez, ver [5].
El primer paso es observar el fenmeno que nos interesa. Con esta informa-
cin y los conocimientos previos que tengamos se propone alguna explicacin
o conjetura. Esta para convertirse en conclusin debe ser comprobada por
medio de experimentos o probada por medio de un razonamiento lgico. Si
se conrma la conjetura se sigue la echa que dice s y sta se incorpora al
resto del conocimiento que se tenga sobre el objeto de estudio. En caso nega-
tivo, se sigue la echa no, y se modica la conjetura o se revisa la validez de
los conocimientos aplicados. Los conocimientos previos que haya en el tema
forman el marco terico en el que se inscribe el problema. Modelar es el ve-
hculo que nos permite pasar de la etapa de la formulacin de la conjetura
al establecimiento de la conclusin. Es muy importante antes de proponer
un modelo, entender bien el problema con el n de seleccionar las variables
que intervienen y las relaciones esenciales entre stas. De esta forma se pro-
pone un modelo lo ms sencillo posible, sin que la simplicacin trivialice el
problema. En ocasiones hay que considerar casos particulares para obtener
soluciones analticas o asintticas que den lugar a resultados cualitativos para
entender mejor en que consiste el problema original. No slo sirve un modelo
para establecer conclusiones, tambin es indispensable para predecir el com-
portamiento del sistema que se observa o para optimizar su comportamiento.
Ilustremos estas ideas por medio de Saturno y sus anillos.
1.1. INTRODUCCIN 9
?
?
?
Prediccin=Observacin?
Observacin
y
Experimentacin
Formulacin
de Conjeturas
Deduccin
de Conclusiones
no
-
s
Figura 1.1. Diagrama estructural del mtodo cientco
Desde la poca de Galileo se haba observado que el comportamiento
de Saturno era distinto al de otros planetas. En esos aos, el alcance de
los telescopios era demasiado corto para distinguir con nitidez a los anillos
por lo que las observaciones dejaban mucho que desear. Con base en sus
observaciones, Galileo concluy que la posicin de Saturno estaba ocupada
por tres planetas: el mayor colocado en medio con dos apndices pequeos a
sus lados. Durante los siguientes 50 aos, los astrnomos no encontraron una
explicacin adecuada de lo que pasaba; hasta llegaron a concebir a Saturno
como una taza con dos asas! La bsqueda de una explicacin plausible se
vea obstaculizada por el hecho de que la visibilidad de Saturno y sus anillos
depende de la posicin que tenga la rbita de la tierra respecto a la de este
planeta. En ocasiones los anillos no son visibles mientras que en otras se ven
totalmente abiertos. En 1655, las leyes de Kepler y el incremento en la calidad
de las observaciones permiti a Christian Huygens concluir la existencia de
un anillo delgado y plano que sin tocar a Saturno, lo rodeaba. En 1675,
las observaciones de Cassini lo obligaron a rechazar esta idea y proponer
otro modelo que consista de dos anillos: uno externo y poco brillante y otro
interior muy brillante, divididos ambos por una lnea obscura. Hasta 1850,
usando el telescopio del observatorio de Harvard, Bond descubri que los
anillos eran tres y no dos.
La explicacin de la naturaleza de los anillos y su comportamiento fue
siempre a la par con la representacin de Saturno. Fue el descubrimiento del
tercer anillo difano, semitransparente y polvoriento que sugiri a Maxwell
en 1857 que los anillos consistan de miles de partculas orbitando alrededor
de Saturno. Esta idea es muy cercana al modelo actual y ha sido corroborada
por los datos que ltimamente han enviado las sondas norteamericanas.
Qu tan bueno es un modelo? Su bondad depende de qu tan bien cumpla
con los objetivos que se buscaban al plantearlo. Por ejemplo, si proponemos
un modelo que considere a los anillos como slidos, tendremos problemas;
pues Laplace demostr, en 1785, que en ese caso los anillos caeran irreme-
diablemente sobre Saturno, por lo que nuestro modelo no describe bien el
comportamiento de este planeta. El modelo y las conclusiones que respecto
a l se ineran, estn estrechamente ligadas. Por ello establecer modelos es
un proceso dinmico; se les modica a medida que se tienen mejores obser-
vaciones.
Distintas clases de modelos
Qu clase de modelos podemos tener? Muy diversos: los hay anlogos
que simplemente imitan al objeto de estudio modicando su escala como la
maqueta de una casa o del sistema solar; hay modelos diagrmaticos que a
travs de una imagen, un dibujo o un diagrama describen al objeto de estudio,
como la Figura 1 de este artculo, y modelos conceptuales, que recurren
a ideas para representar, como los modelos matemticos. Varias clases de
modelos pueden intervenir en la generacin de un conocimiento.
Intentar denir lo que es un modelo matemtico es una empresa difcil.
Adems de las conocidas trampas de lenguaje a las que se enfrenta uno, siem-
pre se corre el riesgo de ser poco preciso y muy ambicioso. Una propuesta
sera la siguiente: un modelo matemtico es una representacin abstracta ex-
1.1. INTRODUCCIN 11
presada en lenguaje matemtico de un proceso, fenmeno o sistema fsico,
biolgico, econmico, social, etctera. Cmo se plantea un modelo matemti-
co? Ilustrmoslo obteniendo la trayectoria que sigue una bala al ser disparada
por un can.
Supongamos que un can forma un ngulo de 30
respecto al suelo y
que una bala con una masa igual a uno es lanzada, en el tiempo t = 0, desde
el origen con una rapidez que denotaremos como v
0
de 100 m/seg. Haremos
algunas suposiciones antes de establecer el modelo con objeto de simplicar
el planteamiento del mismo: asumamos que es un da claro y sin viento, lo
que nos permite suponer que la bala se mover en un plano y supongamos
tambin que la friccin del aire no es signicativa.
Nos interesa determinar el tipo de curva que describe la trayectoria del
misil a lo largo de todo tiempo t que dure su movimiento, por lo que las incg-
nitas del problema son los puntos del plano (x(t), y(t)). Debemos encontrar
una relacin que nos permita ligar la informacin que tenemos como el ngu-
lo de tiro y la rapidez inicial, que son los datos del problema, con x(t) y y(t).
Por medio del ngulo de tiro y de la rapidez inicial podemos obtener para el
tiempo t = 0, una velocidad en la direccin horizontal y una velocidad en la
direccin vertical que denotaremos como v
x
(0) y v
y
(0), respectivamente. Esto
se hace usando las siguientes expresiones que se obtienen con trigonometra
v
x
(0) = v
0
cos 30
= 86.60 y v
y
(0) = v
0
sen 30
= 50.
Para establecer el modelo matemtico apliquemos la fsica que aprendimos
en la preparatoria: por hiptesis la fuerza gravitacional es la nica fuerza que
afecta a la velocidad inicial; esta fuerza tambin se puede descomponer en
una componente horizontal y otra vertical. La horizontal es cero mientras que
la vertical es de 9.8 porque empuja a la bala hacia el suelo. Por lo tanto,
la velocidad horizontal es la misma a lo largo del movimiento de la bala, as
que la distancia recorrida en la direccin x al tiempo t es
x(t) = v
x
(0) t = 86.60 t. (1.1)
En el caso del movimiento vertical, sta se ve afectada por la componente
vertical de la fuerza gravitacional, por lo que v
y
(t) = v
y
(0) 9.8 t y
y(t) = 50t
9.8
2
t
2
. (1.2)
De esta forma hemos determinado a x(t) y y(t) pero, qu trayectoria
sigue la bala? Para ello, despejemos de (1.1) la variable t, t = x/86.60 y
substituyamos en la ecuacin (1.2)
y(x) =
50
86.60
x 4.9(
x
86.60
)
2
. (1.3)
Esta es la ecuacin de una parbola con vrtice en (441.83, 127.55). Para
determinar el alcance del can, se calcula la abscisa x para la cual la altura
es cero, o sea y = 0; igualando (1.3) a cero se tiene que
x
86.60
(50
4.9
86.60
x) = 0.
La altura es cero en la posicin inicial y cuando x = 883.67 mt. Observemos
que este mismo anlisis se puede hacer para cualquier velocidad inicial y
cualquier ngulo de tiro. Las expresiones (1.1) y (1.2) sintetizan el modelo
mtematico que describe la trayectoria de una bala en un plano sin considerar
la friccin del aire.
Distintos tipos de modelos matemticos
A pesar de que cualquier intento de clasicacin tiene el inconveniente de
ser esquemtico y reduccionista, con objeto de que la presentacin de lo que
es un modelo matemtico sea lo ms sencilla posible, adoptaremos la clasi-
cacin que sugiere Mark Meerschaert en su libro Mathematical Modeeling,
vase [7]. Segn l, la gran mayora de los modelos matemticos pertenecen
a una de las siguientes categoras: modelos de optimizacin, modelos dinmi-
cos y modelos probabilsticos. Un modelo dinmico es aquel que depende del
tiempo, como el ejemplo anterior; el probabilstico es aquel en el que hay
incertidumbre y, por ltimo, un modelo de optimizacin consiste en deter-
minar el valor ptimo de un grupo de variables. La realidad es sumamente
compleja por lo que al tratar de modelarla se requiere combinar distintos
tipos de modelos a la vez.
Problemas que involucren el determinar el ptimo de una funcin apare-
cen muy frecuentemente cuando se hace un modelo matemtico. No importa
qu tipo de problema se est estudiando, siempre se desea maximizar los ben-
ecios y minimizar los riesgos: empresarios tratan de controlar las variables
con el n de maximizar sus ganancias y de reducir los costos. Las personas
que trabajan en la explotacin de los recursos renovables como pesqueras o
bosques tratan de encontrar un equilibrio entre obtener la mxima ganancia
1.2. ALGUNOS MODELOS DE OPTIMIZACIN 13
y la conservacin de recursos. Los bioqumicos buscan reducir los efectos co-
laterales de nuevos medicamentos. Todos estos problemas tienen en comn
que se busca controlar ciertas variables para obtener el mejor resultado.
1.2. Algunos modelos de optimizacin
Los modelos de optimizacin buscan determinar el valor de las variables
independientes, sujetas stas en muchos casos a restricciones, que maximizan
o minimizan el valor de una funcin. A continuacin se presentan varios
modelos de optimizacin.
Optimizacin lineal con restricciones
Una compaa empacadora de fruta busca maximizar la ganancia que
obtiene de la venta de latas de pia, mango y guayaba. Supongamos, para
simplicar el problema, que la compaa vende todo lo que produce por lo
que busca optimizar su produccin en lo que se reere a la utilizacin de
la maquinara. Cuenta con tres mquinas: la mquina A limpia la fruta,
la mquina B la cuece y la mquina C la enlata. Las mquinas no pueden
trabajar 24 horas en forma continua, cada da varias horas deben consagrarse
a su mantenimiento. Supongamos que la mquina A trabaja 8 horas al da, la
B 10 horas y la C 12 horas. Para producir un lote de mango, que consiste de
100 latas, se requiere tres horas de la mquina A, 3 horas de la mquina B y
4 horas de la mquina C; para producir un lote de pia se requiere 4 horas de
la A, 2 horas de la B y 4 horas de la C y, por ltimo, para un lote de guayaba
se requiere 2 horas de la A, 2.5 horas de la B y 4 horas de la C. El costo
de un lote de mango es de $1000.00, de pia $900.00 y de guayaba $850.00.
Cuntos lotes de cada una de las frutas deben producirse para obtener el
mximo de ganancia si los lotes se venden al doble del costo?
Para construir un modelo matemtico observemos primero que las incg-
nitas de nuestro problema son el nmero de lotes de cada fruta que deben
producirse. Como la unidad de produccin es el lote denotemos con x el
nmero de lotes de mango, con y el de pia y con z el de guayaba. A conti-
nuacin notemos que la ganancia, que denotaremos con la letra G, depende
de la venta total menos el costo de produccin y sta est dada por la suma
de las ventas de cada fruta que, a su vez, se calcula, multiplicando el nmero
de lotes por el precio de venta menos el costo. Asi que G depende de x, y y
z de la siguiente forma:
G(x, y, z) = 1000x + 900y + 850z.
La solucin de nuestro problema es un punto (x, y, z) en el espacio '
3
. G es
una funcin que va de '
3
'. Pero la solucin que buscamos no es cualquier
punto de '
3
ya que las variables x, y y z deben satisfacer ciertas condiciones.
Por ejemplo, el nmero de lotes debe ser positivo, no tiene sentido obtener
valores negativos y esta condicin se expresa matemticamente por
x, y, z 0.
Segundo, cada mquina tiene restricciones en su uso y se conoce el nmero
de horas que se requieren de cada mquina para producir cada fruta. Por
ejemplo, para la mquina A el nmero de horas que se utiliza al da no debe
rebasar las 8 horas asi que, la suma de horas que se usa en cada fruta debe ser
menor o igual a 8; por otro lado, el nmero de horas que se usa en cada fruta
se calcula multiplicando el nmero de lotes por las horas que se requieren
para producir cada lote, es decir 3 por x para el mango, 4 por y para la pia
y 3 por z para la guayaba. Asi que
3x + 4y + 2z 8.
Aplicando un razonamiento similar para las mquinas B y C se tiene 3x +
2y + 2.5z 10 y 4x + 4y + 4z 12, respectivamente.
Resumiendo, el problema que hay que maximizar es el siguiente: Deter-
minar el mximo de una funcin G que denotaremos como Max G
Max G(x, y, z) = 1000x + 900y + 850z,
sujeto a : x, y, z 0,
3x + 4y + 3z 8,
3x + 2y + 2.5z 10,
4x + 4y + 4z 12.
Este es un problema de optimizacin con restricciones. Como la funcin
G y las restricciones son funciones lineales respecto a sus variables indepen-
dientes, este es un problema de optimizacin lineal con restricciones lineales
que se conoce con en el nombre de programacin lineal. El problema de pro-
gramacin lineal general, escrito en forma vectorial, es de la forma:
Max F(x) =c
t
x,
sujeto a : Ax

d,
x 0.
Ajuste polinomial por mnimos cuadrados
Dados (x
i
, y
i
) observaciones con i = 0, . . . , m determinar el polinomio
p(x) de grado n que mejor aproxima a los datos en el sentido de mnimos
cuadrados, es decir que satisface
Min
m
i=0
[p(x
i
) y
i
]
2
.
Un polinomio de grado n tiene la siguiente forma
p(x) = a
n
x
n
+ a
n1
x
n1
+ + a
1
x + a
0
,
basta con determinar los n+1 coecientes para determinar el polinomio por
lo que el problema anterior se reduce a determinar el vector (a
0
, a
1
, . . . , a
n
)
de '
n+1
tal que
Min
m
i=0
[a
n
x
n
i
+ a
n1
x
n1
i
+ + a
1
x
i
+ a
0
y
i
]
2
.
Este es un problema de minimizacin cuadrtica sin restricciones.
Optimizacin de portafolios
Determinar la composicin de un portafolio de inversin, integrado por ac-
ciones de empresas que se negocian en la Bolsa Mexicana de Valores (BMV),
cuyo riesgo sea el menor posible y que obtenga un rendimiento ms alto que
una inversin a plazo jo.
Al tiempo t = 0 se tiene un monto M que se desea invertir a una semana
en un portafolio de inversin, integrado con acciones de n empresas. Se tiene
como datos los precios diarios de cada una de las acciones en los tres meses
previos a t = 0. El nmero de acciones de cada empresa se debe determinar
de tal forma que el riesgo del portafolio sea mnimo y su rendimiento semanal
sea igual o mayor a una r
dada.
Para tener una mejor idea del problema, revisemos algunos conceptos de
nanzas. Un monto M
0
que se invierte en el banco a un inters r anual, al
trmino de un ao se convierte en un monto M
1
igual a
M
1
= M
0
+ rM
0
= (1 + r)M
0
.
Observemos que r =
M
1
M
0
M
0
es la ganancia relativa, se le conoce como el
rendimiento de la inversin, y en el caso de los depsitos a plazo jo coincide
con la tasa de inters.
En el caso de las acciones, como de otros activos nancieros, el rendimien-
to durante un periodo, se dene por las variaciones relativas del precio del
activo y est dado por
r =
P
1
P
0
P
0
, (1.4)
con P
0
el precio al tiempo inicial y P
1
al tiempo nal. Observemos que
P
1
= (1 + r)P
0
, por lo que el concepto de rendimiento coincide con el que
denimos para depsitos bancarios.
Los rendimientos de un depsito bancario son deterministas porque al
depositar el dinero sabemos de antemano el rendimiento exacto que se recibir
a la fecha de vencimiento; en el caso de las acciones, las variaciones del
precio dependen de muchos factores: del desempeo de la empresa, de la
situacin econmica del pas, del tipo de cambio, de las tasas de inters
e inclusive de qu tan optimistas o pesimistas sean los participantes en el
mercado accionario. En suma, son tantos los factores que intervienen, que es
difcil prever de antemano si se incrementar o se reducir el precio y, ms
difcil an, en cunto lo harn. Dado que no podemos determinar con certeza
el rendimiento a futuro de cada accin, sta se comporta como una variable
aleatoria. En consecuencia, al tiempo t = 0, a lo ms a lo que podemos
aspirar es a calcular el valor esperado del rendimiento de una accin.
Una forma de calcular el valor esperado de una variable aleatoria es a
travs del clculo del primer momento de la distribucin. Qu tipo de dis-
tribucin tienen los rendimientos de los activos con riesgo? Para tener una
idea analicemos el comportamiento histrico de stos; por ejemplo, a travs
de un histograma de los rendimientos diarios de cada accin.
Supongamos que los rendimientos son normales entonces basta con deter-
minar su esperanza y su varianza para determinar su distribucin. Cuando no
se conoce esta informacin, se puede estimar a travs de la media y varianza
muestral. El rendimiento diario esperado E(r
i
) se puede estimar por medio
de los datos a travs de la media muestral
E(r
i
) r
i
=
1
M
M
j=1
P
j+1
i
P
j
i
P
j
i
1
M
M
j=1
ln
_
P
j+1
i
P
j
i
_
.
La varianza
2
i
mide qu tanto se alejan los rendimientos reales del valor
promedio, por lo que es una forma adecuada de evaluar el riesgo de una
accin. La varianza muestral
2
i
es un buen estimador de la varianza y se
calcula por
2
i
=
1
M 1
M
j=1
_
ln
_
P
j+1
i
P
j
i
_
r
i
_
2
.
Es importante tambin determinar la dependencia entre los rendimientos
de las acciones. La covarianza mide esta dependencia. Se estima la covarianza
a travs de la covarianza muestral Cov(r
i
, r
j
) que se calcula por
Cov(r
i
, r
j
) =
1
M 1
M
k=1
_
ln(
P
k+1
i
P
k
i
) r
i
_
_
ln(
P
k+1
j
P
k
j
) r
j
_
.
Formulacin matemtica del problema
El rendimiento relativo de un activo A
i
se denotar por r
i
y se dene por
la expresin (1.4). Si el precio al tiempo nal P
1
i
es una variable aleatoria,
tambin lo es r
i
. Sea m
i
el nmero de acciones que se compran del activo i.
Entonces
M = m
1
P
0
1
+ . . . m
n
P
0
n
,
1 =
m
1
P
0
1
M
+ +
m
n
P
0
n
M
.
Sean w
i
=
m
i
P
0
i
M
la variable que representa el porcentaje del capital M in-
vertido en el activo A
i
. Las variables w
i
son las variables del problema de
optimizacin. La ventaja de denir a las variables como w
i
es que stas no
dependen del monto a invertir, por lo que podemos plantear el problema para
cualquier monto M.
Las restricciones que deben satisfacer las w
i
son las siguientes:
1. Para que se cumpla el requisito de que el costo del portafolio sea igual
a M se debe satisfacer que
n
i=1
w
i
= 1.
2. La segunda restriccin es que el rendimiento del portafolio sea mayor
al de un depsito a plazo jo, supongamos que el rendimiento de ste
es igual a r
.
Para formular esta restriccin en trminos de las w
i
, se hace lo siguiente:
denotemos por V
0
el valor del portafolio al tiempo cero, V
1
el valor del
portafolio al tiempo t
1
y como r
p
al rendimiento del portafolio al tiempo
t = 1. El rendimiento del portafolio es igual a
r
p
=
V
1
V
0
V
0
,
como V
0
= M entonces
r
p
=
1
M
n
i=1
m
i
[P
1
i
P
0
i
] =
n
i=1
m
i
P
0
i
M
[P
1
i
P
0
i
]
P
0
i
,
=
n
i=1
w
i
r
i
.
La segunda restriccin se formula matemticamente de la siguiente for-
ma:
E(r
p
) =
n
i=1
w
i
E(r
i
)
n
i=1
w
i
r
i
= r
.
La funcin a minimizar se llama la funcin objetivo. La funcin objetivo es
el riesgo del portafolio. El riesgo de un portafolio puede medirse de muchas
formas. En el caso que se suponga que los rendimientos son normales, la
varianza del portafolio es una buena medida de su riesgo ya que cualquier
otra medida de riesgo depende de la varianza, por ejemplo el VaR. La varianza
de un portafolio se calcula de la forma siguiente:
2
p
= E[(r
p
E(r
p
))
2
],
= E[(
n
i=1
w
i
r
i
E(r
p
))
2
],
=
n
i=1
n
j=1
w
i
w
j
E([r
i
E(r
i
)] [r
j
E(r
j
)]),
=
n
i=1
n
j=1
Cov(r
i
, r
j
)w
i
w
j

n
i=1
n
j=1
Cov(r
i
, r
j
)w
i
w
j
.
En suma la formulacin matemtica del problema del portafolio ptimo es
Min
1
2
n
i=1
n
j=1
Cov(r
i
, r
j
) w
i
w
j
sujeto a
n
i=1
w
i
r
i
= r
n
i=1
w
i
= 1.
La funcin objetivo se divide por un medio por comodidad. Si se denota
como [] la matriz con componentes []
ij
= Cov(r
i
, r
j
), a w como el vector
con componentes w
i
,

r el vector con componentes r
i
, y

1 al vector con
todos sus componentes igual a uno, la forma vectorial del problema anterior
es
Min
1
2
w
t
[] w
sujeto a w
t
r = r
1
t
w = 1.
Qu sucede si no se permiten ventas en corto? Es decir que no se pueda
pedir prestado dinero para integrar el portafolio. En este caso el problema
es:
Min
1
2
w
t
[] w
sujeto a w
t
r = r
1
t
w = 1,
w
i
0, i = 1, . . . , n.
La formulacin matemtica del problema fue idea de Harry Markowitz,
ganador del Premio Nobel de Economa en 1990 por su teora de riesgo-ren-
dimiento, entre otras cosas.
Optimizacin no lineal
Otro ejemplo de optimizacin es el siguiente: Se requiere enviar un pa-
quete rectngular por correo. Por estipulaciones del servicio postal slo se
aceptan paquetes con dimensiones menores o iguales a 60 cm y se pide,
adems, que la supercie total sea a lo ms de 80 cm
2
. Si se desea maximizar
el volumen, qu dimensiones debe tener la caja?
Claramente las incgnitas del problema son las dimensiones, denotemos
con la letra x al largo de la caja, con y al ancho y, por ltimo, con z al espesor.
Como se desea maximizar el volumen, denotemos con V al volumen que
depende de las dimensiones de la caja de la forma siguiente V (x, y, z) = xyz.
V es una funcin de '
3
'; como en el caso anterior las dimensiones
no pueden tomar cualquier valor. Por un lado, deben ser positivas y menores
a 60 cm, sto se expresa en lenguaje matemtico de la forma 0 x, y, z
60 y por otro lado, la supercie total no puede rebasar los 80 cm
2
, o sea,
2(xy + xz + zy) 80. En suma, el problema a optimizar es el siguiente
Max V (x, y, z) = xyz,
sujeto a : 0 x, y, z 60,
S(x, y, z) = 2(xy + yz + xz) 80 0.
El problema anterior es un problema de optimizacin no lineal con restric-
ciones no lineales ya que tanto la supercie total como el volumen dependen
en forma no lineal de las dimensiones. En forma general el problema de op-
timizacin no lineal con restricciones no lineales es de la forma:
Max F(x),
sujeto a :

h(x) 0.
Como se puede observar dependiendo de las caractersticas de las restric-
ciones como de la funcin objetivo, aquella que se desea maximizar o mini-
mizar, el problema de optimizacin se clasica de muy diversas maneras: si
tanto la funcin objetivo como las restricciones son convexas se dice que se
tiene un problema de programacin convexa; si la funcin objetivo es lineal
pero con dominio en los enteros se conoce con el nombre de programacin
1.3. EJERCICIOS 21
entera y las tcnicas que se utilizan son principalmente de combinatoria. Si
la funcin objetivo es cuadrtica se dice que el problema es de programacin
cuadrtica, si la funcin es no-lineal se le llama programacin no-lineal.
1.3. Ejercicios
Plantee los siguientes problemas como problemas de optimizacin.
1. Demuestre que de todos los rectngulos con un permetro jo, el cuadra-
do tiene mxima rea y que de todos los rectngulos con rea ja, el
cuadrado tiene mnimo permetro.
2. Dada una linea recta L y dos puntos A y B del mismo lado de L,
encuentre el punto P sobre L que hace que la suma de las distancias
AP y PB sea mnima.
3. Una lata cerrada de forma cilndrica debe tener un volumen jo. Qu
dimensiones debe tener la lata para que la supercie total sea mnima?
4. Dos caminos se intersectan en ngulo recto. Un carro A est situado
en la posicin P sobre uno de los caminos a S kilmetros de la inter-
seccin. Sobre el otro camino se encuentra el auto B, en la posicin
Q a s kilmetros de la interseccin. Ellos comienza a viajar hacia la
interseccin al mismo tiempo, el primero con velocidad R y el segundo
con velocidad r. Despus de qu tiempo de que comenzaron a rodar,
la distancia entre los dos ser mnima?
5. Una compaa area de transportacin tiene la capacidad de mover
100,000 toneladas al da. La compaa cobra 250 dlares por tonelada.
El nmero de toneladas que puede transportar esta limitada por la
capacidad del avin que es de 50, 000 m
3
. La compaa mueve su carga
a travs de contenedores de distinto tamao. La siguiente tabla muestra
el peso y el volumen que cada contenedor puede llevar:
Tabla 1
Tipo de Contenedor Peso (ton) Volumen (m
3
)
1 30 550
2 40 800
3 50 400
Determine cuntos contenedores de cada tipo deben transportarse al
da para maximizar las ganancias.
6. Un productor de computadoras personales vende en promedio 10,000
unidades al mes de su modelo M1. El costo de produccin de cada
computadora es de 700 dlares y el precio de venta es de 1150 dlares. El
administrador decidi reducir en un 10 % el precio de cada computadora
y el efecto fue de un incremento del 25 % en las ventas. Por otro lado,
la compaa tiene un contrato de publicidad a nivel nacional que le
cuesta 50,000 dlares al mes. La agencia de publicidad arma que si
incrementan la publicidad mensual en 10,000 dlares, vendern ms de
200 unidades al mes. Dado que el administrador no desea gastar ms
de 100,000 dlares al mes en publicidad, determine el precio en que se
deben vender las computadoras y el gasto de publicidad mensual que
maximizan las ganancias, si se supone que hay una relacin lineal entre
la disminucin del precio y el incremento en las ventas.
7. Un productor de televisores desea introducir al mercado dos nuevos
modelos: un aparato a colores, con una pantalla de 19 pulgadas y con
sonido estereofnico que lo identicaremos como el modelo A y otro
que le llamaremos el modelo B que tiene las mismas caractersticas que
el anterior pero, con una pantalla de 21 pulg. El modelo A se vender al
pblico en $10700 pesos, mientras que el modelo B tendr un costo de
$13500 pesos. Producir un televisor tipo A cuesta $5850 pesos y del tipo
B $6750 pesos. Adems, al costo total de produccin se le debe sumar
$400,000 de gastos jos. La venta promedio de los televisores se reduce
cada vez que se compra un televisor del mismo modelo y sto se expresa
reduciendo el precio original en un peso por modelo vendido. Asimismo,
las ventas del modelo A inuyen en las ventas del modelo B y viceversa.
Se estima que cada vez que se compra un televisor tipo A se reduce el
precio del modelo B en 4 pesos y cada vez que se vende un modelo B se
reduce el precio del modelo A en 3 pesos. Cuntas unidades de cada
modelo deben producirse para maximizar la ganancia?
Captulo 2
Optimizacin sin restricciones.
En este captulo se presentan algunos resultados del clculo diferencial
de varias variables para problemas de optimizacin sin restricciones. Estos
resultados se conocen con el nombre de condiciones de primero y segundo
orden para la existencia de mximos o mnimos y se aplican a aquellos prob-
lemas en los que la funcin objetivo es diferenciable en un conjunto abierto
S de '
n
. Para aquellos lectores que les interesa estudiar el caso en que la
funcin no es diferenciable se les recomienda consultar el libro de Fletcher
[4].
2.1. Un problema de mnimos cuadrados
Segn estudios mdicos el nmero de cigarrillos que consume al ao una
persona incrementa el riesgo de que padezca de cancer pulmonar. Supon-
gamos que se desea estimar el nmero de muertes que pueden ocurrir en
la Ciudad de Mxico por cancer pulmonar, dado que el promedio anual del
consumo por persona de cigarrillos durante 1990 fue de 470. Los nicos datos
que se tienen a la mano relacionan el consumo de cigarrillos, x
i
, con el nmero
de muertes por cncer pulmonar, y
i
, en los pases escandinavos durante 1980.
Aunque las condiciones de vida de esos pases y las del nuestro son muy
distintas, esos datos pueden darnos una estimacin inicial.
23
24 CAPTULO 2. OPTIMIZACIN SIN RESTRICCIONES.
Tabla 2.1
Pas Consumo Num. de muertes
Dinamarca 350 165
Finlandia 1100 350
Noruega 250 95
Suecia 300 120
Cmo se pueden usar estos datos? Al gracarlos, se observa que puede
trazarse una recta que no diste mucho de ellos. Como lo que buscamos es
una estimacin y no el valor exacto, por qu no construmos la recta p(x) =
a
1
x + a
0
que al evaluarla en cada x
i
no diste mucho de y
i
?
Una manera de determinar la recta es buscar los coecientes a
0
y a
1
que
hagan que la suma de los cuadrados de la diferencia entre p(x
i
) y y
i
sea lo
ms pequea posible. Observemos que las incgnitas de nuestro problema
son los coecientes a
0
y a
1
. Sea G la funcin que depende de a
0
y a
1
, con la
siguiente regla de correspondencia:
G(a
0
, a
1
) =
4
i=1
[y
i
a
1
x
i
a
0
]
2
.
Entonces el problema a determinar puede escribirse como un problema de
optimizacin de la forma siguiente: determinar el mnimo de G en '
2
que se
denotara como
mn
(a
0
,a
1
)
2
G(a
0
, a
1
).
Este es un problema no lineal sin restricciones. que se conoce con el nombre
de ajuste lineal por mnimos cuadrados.
Supongamos que podemos determinar una solucin, entonces para estimar
el nmero de muertes por cancer pulmonar en la Ciudad de Mxico basta
con evaluar la funcin p(x) en 470. Esta no es la nica manera de encontrar
una estimacin, ntese que se puede construir la funcin G de muy diversas
maneras; por ejemplo, sea G
1
la suma del valor absoluto de f(x
i
) y
i
, o sea
G
1
(a
0
, a
1
) =
4
i=1
[y
i
a
1
x
i
a
0
[.
El problema de optimizacin correspondiente es ms difcil que el anterior
ya que G
1
no es diferenciable y no podemos usar clculo para resolver el pro-
blema de optimizacin.
2.2. CONDICIONES DE PRIMER ORDEN 25
En este captulo se estudiar la relacin que existe entre la primera y
segunda derivada y la existencia de puntos extremos.
2.2. Condiciones de primer orden
Veamos primero algunas deniciones que nos permitan hablar sin am-
biguedad de lo que entendemos por un mnimo o por un mximo. De aqu en
adelante trabajaremos con funciones f denidas en un subconjunto abierto
S de '
n
con valores en los reales y supondremos que f C
0
(S) o sea es
continua en S. Asimismo, denotemos con | | la norma euclideana en '
n
.
Denicin 2.2.1. Se dice que una funcin f tiene un punto mnimo global
en S si existe una x
S que satisface que

f(x
) f(x) x S.
Denicin 2.2.2. Se dice que una funcin f tiene un punto mximo global
en S si existe x
S tal que
f(x) f(x
) x S.
Denicin 2.2.3. Se dice que f tiene un mnimo local en S si existe una
> 0 tal que
f(x) f(x
) x V
(x
),
con V
(x
) = x S[ [[xx
[[ < . De la misma forma se dene un mximo

local.
Denicin 2.2.4. Diremos que f admite un punto extremo en S si f tiene
un mnimo o un mximo local en S.
Las deniciones anteriores precisan lo que entendemos por un punto ex-
tremo pero no nos indican un procedimiento para asegurar su existencia o
un procedimiento para encontrarlo.
Si f es continua en un conjunto compacto de '
n
el Teorema de Weier-
strass nos garantiza que f alcanza sus valores extremos en el compacto. Si
f es diferenciable en un abierto de S '
n
podemos usar clculo de varias
variables para determinar los puntos extremos. En caso de que la funcin no
sea diferenciable pero si continua, existen otros mtodos para determinar los
puntos extremos. En los ltimos aos han aparecido varios algoritmos heurs-
ticos como los algoritmos genticos que no requieren el clculo del gradiente
y que han dado buenos resultados.
Denicin 2.2.5. Supongamos que f es diferenciable en S, un abierto de
'
n
, diremos que f admite un punto crtico x
en S si
f(x
)
x
j
= 0 j = 1, . . . . , n.
El siguiente teorema nos dice que si f es diferenciable en S y tiene un
punto extremo en x
S, necesariamente ste debe ser un punto crtico.

Teorema 2.2.6. Supongamos que f es continuamente diferenciable en S, un
abierto de '
n
, y que tiene un punto extremo en x
S
f(x
)
x
j
= 0 j = 1, . . . . , n.
Para cada j, denamos la funcin

f
j
:' ' tal que
f
j
(t) = f(x
+ t e
j
),
con e
j
el j-simo vector de la base cannica de '
n
.

f
j
es una funcin continua
y diferenciable en ' ya que
d
f
j
(t)
dt
= f(x
+ t e
j
) e
j
=
f(x
+ t e
j
)
x
j
.
Dado que x
es un punto extremo de f, entonces

f
j
restringido a la recta
x
+t e
j
tambin alcanza un valor extremo en el mismo punto, o sea cuando
t = 0. Por lo tanto la derivada de

f
j
debe anularse en t = 0, es decir
0 =
d
f
j
(0)
dt
=
f(x
)
x
j
.
Como para cada j se cumple lo anterior, se concluye que el gradiente de f
en x
es igual al vector cero.

Todo punto extremo de una funcin diferenciable es un punto crtico, pero
no viceversa. Al teorema anterior se le conoce con el nombre de condiciones
de primer orden. Para poder garantizar que un punto crtico es un mnimo o
un mximo se requiere utilizar la informacin del Hessiano de la funcin.
2.3. CONDICIONES DE SEGUNDO ORDEN 27
2.3. Condiciones de segundo orden
Supongamos en esta seccin que f C
2
(S), la matriz Hessiana de f
evaluada en un punto x en '
n
es una matriz de n n de la forma
H
f
(x) =
_
_
_
_
_
_
2
f(x)
x
2
1
. . .

2
f(x)
x
1
x
n
2
f(x)
x
2
x
1
. . .

2
f(x)
x
2
x
n
.
.
.
.
.
.
.
.
.
2
f(x)
xnx
1
. . .

2
f(x)
x
2
n
_
_
_
_
_
_
.
Como f C
2
(S) entonces las parciales cruzadas son iguales por lo que el
Hessiano es simtrico: H
t
f
= H
f
. Denotaremos como A
t
la matriz transpuesta
de A.
Denicin 2.3.1. Una matriz H '
nn
es positiva semidenida si
x
t
Hx 0 x '
n
,
y es negativa semidenida si
x
t
Hx 0 x '
n
. (2.1)
Denicin 2.3.2. Una matriz H '
nn
es positiva denida si
x
t
Hx > 0 x '
n
, x ,= 0
y es negativa denida si se cumple en (2.1) la desigualdad estricta.
Teorema 2.3.3. Sea f : S R
n
', S abierto y f C
2
(S). Si x
es un
punto crtico de f en S y si el Hessiano de f evaluado en x
: H
f
(x
), es
positiva denida f tiene un mnimo local en x
.
Como f C
2
(S) y x
S entonces, por el Teorema de Taylor, para todo

x S, f(x) se puede escribir de la forma
f(x) = f(x
) + (x x
)
t
f(x
) +
1
2
(x x
)
t
H
f
() (x x
),
con S. Como x
es un punto crtico de f, por el teorema anterior

f(x
) = 0 por lo que
f(x) = f(x
) +
1
2
(x x
)
t
H
f
() (x x
). (2.2)
Dado que f C
2
(S) entonces H
f
(x
) es continua y adems por hiptesis

es positiva denida, as que se garantiza la existencia de una > 0 tal que
H
f
(x) es semidenida positiva para toda x V
(x
). Por la igualdad (2.2)

podemos asegurar que todos los elementos de esta vecindad satisfacen que
f(x) f(x
). Por lo tanto x
es un mnimo local de f S.
Teorema 2.3.4. Sea f : S R
n
', S abierto y f C
2
(S). Sea x
un punto de S y supngase que x
es un mnimo local de f en S. Entonces

H
f
(x
) es una matriz semidenida positiva.

Ver demostracin en el Luenberger [6]
Para el caso de un mximo se tienen resultados similares, basta con cam-
biar, donde proceda, la hiptesis de que la matriz hessiana sea positiva deni-
da por negativa denida. En la siguiente seccin se aplican los resultados
anteriores a problemas cuadrticos.
2.4. Funciones cuadrticas
Las funciones cuadrticas son las funciones no lineales ms sencillas. Su
forma general, en expresin matricial, es la siguiente
f(x) =
1
2
x
t
Ax x
t
b + c,
con A '
nn
,
b '
n
y c '. Al problema de optimizacin correspondiente
se le conoce con el nombre de programacin cuadrtica siempre que A sea
simtrica. En este caso, la funcin objetivo siempre es una funcin dos veces
continuamente diferenciable, por lo que
f(x) = Ax
b
y H
f
(x) = A. Encontrar los puntos crticos de f es equivalente a resolver el
siguiente sistema de ecuaciones lineales
Ax =
b. (2.3)
Este problema admite una nica solucin si el determinante de A es dis-
tinto de cero, por lo que un problema cuadrtico con matriz A invertible
2.4. FUNCIONES CUADRTICAS 29
admite un nico punto crtico. La matriz hessiana: H
f
(X) = A es una ma-
triz constante por lo tanto si es positiva denida se tiene un mnimo o si es
negativa denida un mximo. Si A es indenida se tienen un punto silla.
Demostrar que una matriz de cualquier tamao es positiva denida a
partir de la denicin no es fcil. El siguiente teorema cuya demostracin
puede verse en el libro de Strang, ver [12], da otros criterios equivalentes
para demostrar que una matriz simtrica es positiva denida.
Teorema 2.4.1. Las siguientes proposiciones son equivalentes:
i) La matriz A es simtrica y positiva denida.
ii) Los valores propios de la matriz A son reales y positivos.
iii) Los determinantes de los menores principales de A son positivos.
iv) En la eliminacin de Gauss todos los pivotes, sin intercambio de ren-
glones, son estrictamente positivos.
v) La matriz A admite una descomposicin tipo Cholesky; es decir existe
una matriz triangular superior S invertible tal que A = S
t
S.
Como el Hessiano de una funcin f dos veces continuamente diferen-
ciable, siempre es simtrico, el anterior teorema nos da varios procedimientos
para probar que ste es positivo denido. Si los valores propios de H
f
(x
)
son todos positivos entonces x
es un mnimo. Si todos los valores propios

son negativos entonces x
es un mximo; por ltimo, si hay valores propios

positivos y negativos la matriz es indenida y se tiene un punto silla. En el
caso que alguno de los valores propios sea cero, entonces no se puede concluir
que tipo de punto se tiene y hay que analizar la funcin para ver si es mnimo
local o punto silla.
Encontrar los valores propios de una matriz es equivalente a encontrar las
races de un polinomio de grado n, lo cual no puede hacerse en forma exacta
cuando n 5. Si el grado del polinomio es muy alto, el problema numrico
asociado es un problema mal planteado, por lo general no garantiza que las
races que encontremos estn cerca de las exactas por lo que no se recomienda
en la prctica. El procedimiento de factorizar la matriz de la forma Cholesky
es fcil de implementar computacionalmente, existen numerosos paquetes de
computacin que realizan esta factorizacin.
Ejemplos
1. Consideremos la funcin
F(x) = x
2
1
2x
1
x
2
1
2
(x
2
2
1),
el punto crtico es (x
1
, x
2
) = (0, 0). El Hessiano es
H
F
=
_
2 2
2 1
_
cuyos valores propios son
1
= 2 y
2
= 3 por lo que la funcin tiene
un punto silla en (0, 0). Vase la Figura 2.1 para conrmar que las
curvas de nivel son hiperbolas.
2 1 0 1 2 3 4
2
1
0
1
2
3
4
Figura 2.1: Curvas de nivel de F(x) = x
2
1
2x
1
x
2
1
2
(x
2
2
1).
2. Otro ejemplo de funcin cuadrtica es
f(x
1
, x
2
) =
1
2
x
2
1
2x
1
x
2
+ 2x
2
2
.
Esta funcin tiene una innidad de puntos crticos. De hecho EN(A) =
(x
1
, x
2
)[x
1
= 2x
2
. En este caso los valores propios del Hessiano de f
son
1
= 0 y
2
= 5 por lo que H
f
es una matriz positiva semidenida.
En este caso no se cumplen las hiptesis del Teorema 2.3.3 por lo que
hay que analizar con ms cuidado la funcin f. Observe que f(x
1
, x
2
) =
1
2
(x
1
2x
2
)
2
por lo que alcanza el valor mnimo en todos los puntos
crticos. La Figura 2.2 nos muestra que las curvas de nivel son rectas
paralelas.
2 1 0 1 2 3 4
2
1
0
1
2
3
4
Figura 2.2: Curvas de nivel de f(x) =
1
2
x
2
1
2x
1
x
2
+ 2x
2
2
.
3. El ejemplo 2.1 es un problema cuadrtico que se expresa en forma
matricial de la siguiente forma: sea y
t
= [165, 350, 95, 120], a
t
= [a
0
, a
1
]
y
X =
_
_
_
_
1 350
1 1100
1 250
1 300
_
_
_
_
entonces la funcin G del ejemplo 3.1 se puede expresar sin prdida de
generalidad de la forma
G
(
a) =
1
2
[y Xa]
t
[y Xa] =
1
2
4
i=1
[y
i
a
0
x
i
a
1
]
2
,
=
1
2
a
t
Aa a
t
b + c,
con A = X
t
X ,
b = X
t
y y c =
1
2
y
t
y.
Para encontrar el punto crtico de G se resuelve el sistema
X
t
Xa = X
t
y (2.4)
que se conoce con el nombre de las ecuaciones normales y su solucin
es un mnimo siempre que X sea una matriz de rango completo, ver
ejercicio 7.
Multiplicando X por su transpuesta obtenemos
X
t
X =
_
4 2000
2000 1485000
_
y multiplicando al vector y por la transpuesta de la matriz X se obtiene
el vector

b
t
= [730, 502500]. Al resolver el sistema (2.4) se obtiene
que a
1
= 0.283503 y a
0
= 40.7475. Para demostrar que este es el
punto mnimo se comprueba que X
t
X es positiva denida en '
2
. Dado
(x, y) '
2
,
x
t
X
t
Xx = x
2
+ 4000xy + 1485000y
2
,
= 4(x
2
+ 1000xy + 250000y
2
) 1000000y
2
+ 1485000y
2
,
= 4(x + 500)
2
+ 485000y
2
0.
Con los valores de a
0
y a
1
que determinamos, estamos en condiciones
de estimar el nmero de muertes por cancer pulmonar en la Ciudad de
Mxico, basta evaluar la funcin f(x) en 470.
f(x) = 0.283505x + 40.7475,
f(470) 174.
En la Figura 2.3 se muestran los datos y la recta que mejor los ajusta
en el sentido de mnimos cuadrados. En el eje de las abcisas se graca
el consumo mientras que en el de ordenadas el nmero de muertes.
200 400 600 800 1000 1200
100
200
300
Figura 2.3: Ajuste por mnimos cuadrados
4. Apliquemos los resultados anteriores a la siguiente funcin que es la
funcin objetivo del ejercicio 7 del captulo anterior.
G(x, y) = (1070 .01x .003y)x + (1350 .004x .01y)y
(400000 + 585x + 675y).
Derivando respecto a x y y e igualando a cero se obtiene el siguiente
sistema de ecuaciones
G(x)
x
= .02x .007y + 465 = 0,
G(x)
y
= .007x .02y + 675 = 0.
La solucin es x = 14173.79 y y = 28789.17 La matriz Hessiana es
_
.02 .007
.007 .02
_
1
= .027 y
2
= 0.013. Por lo que la
funcin tiene un mximo en su punto crtico. Observemos que en el
problema original se tenan como restricciones que las variables fueran
positivas, como esta condicin se cumple para el mximo local entonces
sta es la solucin del problema.
Las funciones cuadrticas son muy importantes en optimizacin. Dada su
sencillez es fcil demostrar en su caso si un mtodo numrico es convergente.
Asimismo, permiten evaluar las ventajas de los mtodos numricos, si un
mtodo no converge para una funcin cuadrtica, difcilmente lo har para
funciones ms generales. Adems, dada una funcin no lineal de clase C
2
,
en una vecindad del mnimo siempre se puede aproximar por medio de una
funcin cuadrtica que se obtiene al expandir la funcin alrededor de un
punto en la vecindad del mnimo. Por el Teorema de Taylor se tiene que
F(x) = F(x
0
) +(x x
0
)
t
F(x
0
) +
1
2
(x x
0
)
t
H
F
(x
0
+(1 )x) (x x
0
).
Si denimos una funcin

F como
F(x) = F(x
0
) + (x x
0
)
t
F(x
0
) +
1
2
(x x
0
)
t
H
F
(x
0
) (x x
0
),
es de esperarse que el mnimo de la funcin cuadrtica

F y de la original
F estn cerca. Por ello, la mayora de los algoritmos se prueban para fun-
ciones cuadrticas, ya que cerca de la vecindad del mnimo nuestra funcin
se comportar como una funcin cuadrtica.
Para ilustrar el caso en que la funcin objetivo sea no lineal tomemos el
caso de la funcin Shalow, llamada asi por su valle poco profundo y que fue
introducida por Witte et al [2]
F(x) = 100 (x
2
1
x
2
)
2
+ (1 x
1
)
2
.
Como puede observarse la funcin desciende muy suavemente al punto mni-
mo que se alcanza en (0, 0).
2.5. MNIMOS GLOBALES 35
Observemos que la funcin F(x) es siempre mayor o igual a cero y que
alcanza un mnimo en (1, 1). Aplicando las condiciones de primero orden
tenemos que
F(x)
x
1
= 400x
3
1
400x
1
x
2
+ 2x
1
2,
F(x)
x
2
= 200(x
2
1
x
2
).
Igualando a cero ambas ecuaciones, se obtiene de la segunda que x
2
1
= x
2
.
Substituyendo en la primera ecuacin nos da que 2x
1
2 = 0 lo que implica
que el nico punto crtico es el (1, 1). Para demostrar que este punto es
realmente un mnimo, aplicamos las condiciones de segundo orden. En este
caso H
F
no es una matriz constante, depende de x
1
y es de la forma
H
F
(x) =
_
1200x
2
1
400x
2
+ 2 400x
1
400 200
_
Evaluando el Hessiano en (1, 1) se tiene
H
F
(1, 1) =
_
802 400
400 200
_
1
= 1001.6006 y
2
= 0.399360. Por lo tanto como
ambos valores propios son positivos, (1, 1) es el nico punto mnimo de F.
La Figura 2.4 nos muestra que el punto (1,1) se encuentra en un valle poco
profundo, de ah la dicultad para determinarlo numricamente.
2.5. Mnimos globales
En muchas aplicaciones no slo interesa determinar los mnimos locales
sino el mnimo global. Existen algunos conjuntos de funciones para las cuales
se puede asegurar que tienen al menos un mnimo global y estas funciones
son las coercivas y las convexas.
2.5.1. Funciones coercivas
Denicin 2.5.1. Sea F : '
n
' continua, se dice que F es coerciva si
lm
x
F(x) = .
4 2 0 2 4
4
2
0
2
4
Figura 2.4: Curvas de nivel de la Funcin Shalow
Esta denicin lo que nos dice es que dada una constante positiva M
existe un nmero positivo R
M
tal que F(x) M cuando |x| R
M
, o sea
F no permanece acotado en un conjunto no acotado de '
n
.
Ejemplos
1. f(x, y) = x
2
+ y
2
.
f(x, y) = |x|
2
,
lm
x
f(x) = lm
x
|x|
2
= .
Por lo tanto f es coerciva.
2. Sea f(x, y) = x
4
+ y
4
3xy.
f(x, y) = (x
4
+ y
4
)(1
3xy
x
4
+ y
4
),
lm
x
f(x) = .
Por lo tanto f es coerciva.
3. Sea f(x, y, z) = e
x
2
+ e
y
2
+ e
z
2
x
100
y
100
z
100
f(x, y, z) = (e
x
2
+ e
y
2
+ e
z
2
)(1
x
100
+ y
100
+ z
100
e
x
2
+ e
y
2
+ e
z
2
),
lm
x
f(x) = .
f es tambin coerciva.
4. Las funciones lineales en '
2
no son coercivas ya que F es de la forma
f(x, y) = ax + by + c.
Si considero los puntos (x, y) tal que ax + by = 0 con a ,= 0 o b ,= 0
entonces f(x, y) = c , independientemente de los valores que tomen
(x, y), por lo que no es coerciva.
5. F(x, y) = x
2
2xy + y
2
F(x, y) = (x y)
2
y si consideramos el conjunto S = (x, y)[x = y se tiene que F(x, y) =
0 para todo punto en S y S es un conjunto no acotado; por lo que F
no es coerciva.
Teorema 2.5.2. Sea F : '
n
' continua y coerciva F tiene al menos
un mnimo global. Si F C
1
el mnimo global es punto crtico.
Si F es continua y coerciva entonces
lm
x
F(x) = .
Sin prdida general supongamos que F(0) = M > 0, entonces por ser F
coerciva, existe una r > 0 tal que si |x| > r s cumple que f(x) > f(0). Sea
B(0, r) = x '
n
[ |x| r
como B(0, r) es un conjunto cerrado y acotado de '
n
entonces F por ser
continua alcanza su valor mnimo en B(0, r). Por lo que existe x
B(0, r)
tal que
F(x
) F(x) x B(0, r).

Observemos que 0 B(0, r) por lo que F(x
) F(0). Si seleccionamos una

x que no est en B(0, r) entonces F(x) > F(0) F(x
) F(x) F(x
)
por lo que x
es un mnimo global.
La segunda parte del teorema se demuestra aplicando las condiciones de
primer orden.
2.5.2. Funciones convexas
Denicin 2.5.3. Sea '
n
se dice que es convexo si para cualquier x
y y en se cumple que x + (y x) , para toda [0, 1].
La interpretacin geomtrica de esta denicin es que cualquier recta
que una a dos puntos del conjunto se encuentra totalmente contenida en el
conjunto.
Denicin 2.5.4. Sea '
n
y sea F : '
n
si para cualesquiera
x, y y (0, 1) se cumple
F(x + (1 )y) F(x) + (1 )F(y)
y se dice que es estrictamente convexa si se cumple
F(x + (1 )y) < F(x) + (1 )F(y).
La interpretacin geomtrica en ' es que la funcin evaluada sobre algn
punto de la recta que une a x con y es mayor o igual al valor que toma la
recta que une a los puntos (x, f(x)) y (y, f(y)).
Ejemplos
1. En ', f(x) = x, f(x) = x
2
y f(x) = e
x
.
2. En '
2
, f(x, y) = x
2
+ y
2
, f(x, y) = e
x+y
.
3. En '
n
, f(x) = c
t
x, f(x) =
1
2
x
t
Ax x
t
b + c con A '
nn
simtrica y
positiva semidenida denida.
Demostrar que f es convexa usando la denicin no siempre es sencillo, pero
el siguiente resultado nos permite probarlo ms facilmente.
Lemma 2.5.5. Sean f, g : '
n
' con convexo en '
n
1. Si f es convexa y > 0 f es convexa.
2. Si f y g son convexas f + g es convexa.
3. Si f es convexa y g es convexa y creciente g f es convexa.
Ejemplos
1. f(x, y, z) = x
2
+ y
2
+ z
2
es convexa.
2. f(x, y, z) = e
x
2
+y
2
+z
2
es convexa.
Teorema 2.5.6. Dada F : '
n
' convexa en un convexo '
n
satisface
que cualquier mnimo local de F denido en un es un mnimo global en .
Dem: Si x
es un mnimo local entonces existe r > 0 tal que V

r
(x
) y
para toda x V
r
(x
) se cumple F(x
) F(x). Sea y cualquier otro elemento

de y sea (0, 1) tal que x
+ (y x
) V
r
(x
) entonces
F(x
) F((1 )x
+ y) (1 )F(x
) + F(y)
por ser F convexa. Entonces
0 (F(y) F(x
))
y de aqu se concluye que F(x
) F(y).
Las funciones convexas en un convexo pueden caracterizarse a travs de
la primera derivada.
Teorema 2.5.7. F : '
n
' continuamente diferenciable en '
n
es
convexa para toda x y y se cumple
F(x) +F(x)
t
(y x) F(y).
Es estrictamente convexa se cumple la desigualdad estricta en la expresin
anterior.
Tambin el hessiano puede dar informacin sobre la convexidad de la
funcin.
Teorema 2.5.8. Si F : '
n
' es dos veces continuamente diferenciable
en '
n
convexo, si H
F
(x) es semidenido positivo F es convexa en
. Si es positiva denida entonces es estrictamente convexa.
2.6. Caractersticas generales de los algoritmos
de descenso
Los ejemplos vistos hasta ahora tienen la cualidad que sus puntos ex-
tremos se determinan en forma exacta, pero ste no es siempre el caso. Por
lo general, los problemas son no-lineales y tienen un gran nmero de variables.
Determinar los puntos crticos equivale a resolver un sistema de ecuaciones
no lineales cuya solucin debe, en la mayora de los casos, aproximarse. Dado
que lo que nos interesa es determinar los extremos de una funcin, por qu
no utilizar un algoritmo apropiado para este tipo de problemas, que tome en
cuenta que el punto que se busca es, por ejemplo, un mnimo.
Los algoritmos que generan una sucesin de puntos x
n
que satisfacen
que F(x
n+1
) F(x
n
) se conocen con el nombre de mtodos de descenso y
funcionan de la siguiente forma: primero, se asla el mnimo local x
que nos
interesa determinar; sto se hace seleccionando una vecindad V
de x
que
no contenga otro punto extremo de F; posteriormente, se escoge un punto
inicial en la vecindad que denotaremos siempre como x
0
. Trcese una recta
que pase por x
0
con una direccin

d
0
y escojase a lo largo de ella un punto x
1
que satisfaga que F(x
1
) F(x
0
). Para generar un nuevo punto, se vuelve a
repetir el mismo procedimiento: seleccionar una direccin d
1
, trazar una recta
que pasa por x
1
con dicha direccin y seleccionar x
2
tal que F(x
2
) F(x
1
).
El algoritmo termina cuando determinamos un punto x
n
= x
o cuando nos
2.7. TIPO DE CONVERGENCIA 41
aproximamos al mnimo con la precisin deseada. En forma esquemtica el
algoritmo el el siguiente:
Dado x
0
V
(x
),
x
n+1
= x
n
+
n
d
n
,
con F(x
n
+
n
d
n
) F(x
n
+
d
n
) '.
Aislar el mnimo no siempre es muy sencillo, se requiere usar todo el
conocimiento que se tenga del comportamiento de la funcin F. Se sugiere
hacer un anlisis cualitativo de la funcin, antes de aplicar un algoritmo, para
determinar una vecindad donde se encuentre el mnimo. La seleccin de la
direccin en cada iteracin distingue a los mtodos. Por ejemplo si slo se usa
la informacin del gradiente se dice que los mtodos son de tipo gradiente; si
adems se usa el Hessiano se dice que son mtodos tipo Hessiano. Por ltimo,
determinar
n
, en cada paso, es equivalente a resolver una ecuacin no lineal
en una sla variable ya que encontrar la t
n
que minimiza la funcin a lo largo
de una recta se reduce a determinar el punto crtico de una funcin de una
sla variable
dF(x
n
+
d
n
)
d
=

d
t
n
F(x
n
+
d
n
) = 0. (2.5)
El problema de resolver la ecuacin (2.5) se conoce con el nombre de
bsqueda lineal y en la mayora de los casos no puede encontrarse su solucin
exacta por lo que hay que aproximarla. En el siguiente captulo se vern en
detalle todo lo referente a los algoritmos de descenso.
2.7. Tipo de convergencia
A continuacin deseamos dar algunos criterios tericos que nos permitan
comparar el desempeo de dos algoritmos numricos. Dado un algoritmo lo
que hacemos con l es generar una sucesin x
n
que tienda al mnimo local
que nos interesa aproximar. El n-simo trmino de la sucesin lo generamos
a partir de minimizar la funcin a lo largo de una recta que pasa por el
punto x
n1
. La convergencia del algoritmo va a depender de cmo converja
la sucesin que genera.
Diremos que un algoritmo tiene convergencia global si la sucesin que
genera converge, independientemente del punto inicial x
0
que se seleccion.
Si, en cambio, su convergencia depende del punto inicial se dice que es un
algoritmo local. Si F es una funcin cuadrtica de '
n
a los reales y si un
algoritmo converge al mnimo a lo ms en n iteraciones se dice que tiene
terminacin cuadrtica.
Supongamos que se tienen dos algoritmos que convergen, cmo decidir
cul escoger? Para poder dar una respuesta, se requiere tener un criterio para
decidir, entre las sucesiones que generan, cul converge ms rpido.
Denicin 2.7.1. Diremos que una sucesin converge linealmente si existe
K (0, 1) tal que
[[x
n+1
x
[[ K[[x
n
x
[[.
Denicin 2.7.2. Diremos que una sucesin converge cuadrticamente si
[[x
n+1
x
[[ K[[x
n
x
[[
2
.
Denicin 2.7.3. Diremos que una sucesin converge superlinealmente si
converge linealmente con K
n
que tiende a cero cuando n tiende a innito.
Diremos que un algoritmo converge de cierta forma si la sucesin que
genera converge de esa forma. Claramente un algoritmo con convergencia
cuadrtica converge ms rpido que uno con convergencia lineal y dados
dos algoritmos lineales converge ms rpido aquel que tenga la menor K.
A K se le conoce como la rapidez de convergencia cuando el orden de
convergencia es lineal.
Ilustremos con un ejemplo cmo se determina el tipo de convergencia
de una sucesin. Qu tipo de convergencia tiene la sucesin r
k
= a
k
con
0 < a < 1? La sucesin converge a 0 linealmente con rapidez de convergencia
K = a. En cambio la sucesin r
k
= a
2
k
converge a cero cuadrticamente con
rapidez de convergencia igual a 1.
En la prctica, es difcil determinar para cualquier problema, el valor de
K y probar el tipo de convergencia. Lo que se hace es probar la convergen-
cia y determinar su orden y el valor de K para los problemas cuadrticos.
Recordemos que cerca de la vecindad de un mnimo la funcin se comporta
como una funcin cuadrtica.
Por otro lado sto slo nos da un aspecto del desempeo de un algoritmo.
Tambin hay que tomar en cuenta el nmero de evaluciones de la funcin, de
su gradiente y Hessiano que se requieren en cada iteracin. Asimismo, el tipo
de instrumento de clculo que se tiene a la mano. Si slo se cuenta con una
calculadora posiblemente seleccionemos a un algoritmo que requiera a lo ms
2.8. EJERCICIOS 43
del gradiente de la funcin, de poco espacio en memoria y del menor nmero
de operaciones. Si el problema tiene muchas variables y slo contamos con
una PC, pues nos decidiramos por un algoritmo intermedio que no requiriera
de mucho espacio en memoria y de poco tiempo de clculo. Pero si tenemos
una supercomputadora, escogeramos aquel algorimo que nos da la mejor
precisin. La seleccin del algoritmo depende del nmero de variables, de
qu tan regular es la funcin, del tipo de instrumento de clculo con el que
se cuenta y de la precisin que se desea.
2.8. Ejercicios
1. Clasique los puntos crticos de las siguientes funciones:
a) f(x, y) = 2x
2
3y
2
+ 2x 3y + 7.
b) f(x
1
, x
2
, x
3
) = 2x
2
1
4x
2
3
+ x
1
x
2
x
2
x
3
6x
1
.
c) f(x, y) = x
3
+ y
3
3x 12y + 20.
d) f(x, y) = x
4
+ y
4
x
2
y
2
+ 1.
e) f(x, y) = (x
2
+ y)e
(x
2
y
2
)
.
2. Diga si las siguientes matrices son positivas denidas, negativas denidas
o indenidas
a)
_
1 2
2 3
_
,
b)
_
_
4 0 1
0 3 2
1 2 5
_
_
,
c)
_
_
3 1 2
1 5 3
1 2 5
_
_
.
3. Demuestre que una matriz simtrica y positiva denida es invertible.
4. Demuestre que los valores propios de una matriz simtrica y positiva
denida son reales y positivos.
5. Determine si las siguientes funciones son coercivas:
f(x, y, z) = x
3
+ y
3
+ z
3
xy.
f(x, y, z) = x
4
+ y
4
+ z
2
7xyz
2
.
f(x, y, z) = ln(x
2
y
2
z
2
) x y.
6. Demuestre que f(x, y) = x
3
+e
3y
3xe
y
tiene un nico punto crtico y
que este punto es un mnimo local pero no global.
7. Sea A = B
t
B con B '
mn
con m > n. Demuestre que si B es
una matriz de rango completo entonces A es positiva denida. Hint:
(By)
t
By = x
t
x con By = x.
8. Dada la siguiente tabla
t
i
r
i
1/13 .0863
3/13 .0863
6/12 .0860
1 .0861
5 .0917
10 .1012
20 .1010
Determine el polinomio lineal que mejor ajuste los datos en el sentido
de mnimos cuadrados.
9. Dada una matriz A '
nn
simtrica y positiva denida existe una
matriz S '
nn
triangular superior tal que A = S
t
S. Los elementos
de S se obtienen de la siguiente forma:
S
11
= A
11
S
i1
=
A
i1
S
11
i = 2, . . . , n,
S
ii
=
_
A
ii
i1
k=1
S
2
ki
i = 2, . . . , n
S
ij
=
1
S
ii
[A
ij
i1
k=1
S
ik
S
jk
] j = i + 1, . . . n.
2.8. EJERCICIOS 45
Factorice la matriz asociada al siguiente problema cuadrtico por medio
de Cholesky. Es positiva denida la matriz?
f(x, y, z) = 2x
2
+ xy + y
2
+ yz + z
2
6x 7y 8z + 9.
10. Diga si las siguientes funciones son convexas en .
a) F(x) = ln(x) en = (0, ).
b) f(x, y, z) = 2x
2
+ y
2
+ z
2
+ 2yz, en = '
3
.
c) f(x, y, z) = e
x
2
+y+z
ln(x + y) + 3
z
2
en = '
3
.
d) f(x, y) = x
2
4xy + 5y ln(xy), determine .
11. Demuestre que si '
n
es un convexo y F : ' es convexa
F(
n
i=1
i
x
i
)
n
i=1
i
F(x
i
)
con x
i
y
i
reales positivos tales que
n
i=1
i
= 1.
12. Demuestre usando el inciso 1 del ejercicio y el ejercicio anterior que si
x
1
. . . x
n
son nmeros reales positivos y si
1
,
2
, . . . ,
n
son nmeros
positivos cuya suma es igual a uno
n
i=1
x
i
i

n
i=1
i
x
i
.
Esta desigualdad generaliza la desigualdad de la media geomtrica y
aritmtica y es muy til en programacin geomtrica. Probar que la
igualdad se cumple cuando x
1
= x
2
= = x
n
.
13. Demuestre que si A es una matriz simtrica existe una matriz Q or-
togonal: Q
t
Q = I tal que D = QAQ
t
es una matriz diagonal cuyos
elementos en la diagonal son los valores propios de A.
14. Graque las curvas de nivel de la funcin F(x, y) = 2x
2
+ xy + 4y
2
2x + 4y. Para ello, encuentre primero los valores y vectores propios de

la matriz H
f
Dado que sta es simtrica aplique el ejercicio anterior
y dena v = Qx. Determine la funcin g que se obtiene al aplicar el
cambio de variable, complete cuadrados y graque las curvas de nivel
de esta funcin. Posteriormente, graque las de la funcin original.
Captulo 3
Mtodos de descenso
En este captulo veremos algunos algoritmos que nos permiten aproxi-
mar el mnimo de una funcin. En particular se ver el mtodo de mximo
descenso, el mtodo de Newton y algunas variantes de ste conocidas con el
nombre de mtodos cuasi-Newton. Al nal se presenta el mtodo de gradiente
conjugado. A lo largo de todo este captulo vamos a suponer que F es una
funcin de un abierto S de '
n
a los reales, que tiene un mnimo relativo en x
y que es una funcin dos veces continuamente diferenciable en una vecindad

de x
.
3.1. Introduccin
Supongamos que se desea determinar la solucin del siguiente problema
mn
x
2
F(x)
con F(x, y) = 3x
2
+ y
2
x
4
12. Este es un problema de minimizacin no
lineal. Aplicando el criterio de la primera derivada se obtiene que la solucin
(x, y) debe satisfacer
F(x, y)
x
= 6x 4x
3
= 0,
F(x, y)
y
= 2y = 0.
De la segunda ecuacin podemos deducir que y = 0 y de la primera se tiene
que x(6 4x
2
) = 0, lo que implica que son puntos crticos: (0, 0), (
_
3
2
, 0)
47
48 CAPTULO 3. MTODOS DE DESCENSO
y (
_
3
2
, 0). Calculando el Hessiano se puede comprobar que (0, 0) es un
mnimo y los otros dos son puntos silla, vase Figura 3.1.
2 1 0 1 2
2
1
0
1
2
Figura 3.1: Curvas de nivel de F(x, y) = 3x
2
+ y
2
x
4
12.
Recordemos que un mtodo de descenso consiste en lo siguiente:
Dado x
0
V
(x
),
x
n+1
= x
n
+
n
d
n
,
con F(x
n
+
n
d
n
) F(x
n
+
d
n
) '.
Para simplicar la notacin denotemos como g
k
al gradiente de F evaluado
en x
k
o sea g
k
= F(x
k
). Supongamos que se han generado k trminos por
medio del algoritmo anterior, si se expande F en una serie de Taylor en el
3.1. INTRODUCCIN 49
punto x
k
se tiene que para alguna entre (0, 1) se cumple
F(x
k+1
) = F(x
k
) +g
t
k
(x
k+1
x
k
)
+
1
2
(x
k+1
x
k
)
t
H
F
(x
k
+ (1 )x
k+1
)(x
k+1
x
k
).
Como el trmino x
k+1
fue generado por medio de un mtodo de descenso
entonces satisface que x
k+1
x
k
=
k
d
k
, por lo que se tiene que
F(x
k+1
) F(x
k
) +
k
g
t
k
d
k
y para
k
> 0, F(x
k+1
) F(x
k
) siempre que
g
t
k
d
k
0. (3.1)
Esta ltima relacin nos dice, que en forma aproximada, la condicin que
debe satisfacer la direccin

d
k
para que la sucesin x
k
sea una sucesin de
descenso es g
t
k
d
k
0; en consecuencia, cuando una direccin

d
k
satisface
(4.3) se le llama una direccin de descenso. Recordemos que si x
k
y x
k+1
estn sucientemente cerca del mnimo, el Hessiano de F debe tomar valores
positivos en la recta que une a estos dos puntos por lo que la nica forma
que disminuya el valor de F en x
k+1
es que se cumpla esta relacin.
Observemos que no es suciente que F tenga un mnimo en x
y que
sea una funcin acotada inferiormente en una vecindad del punto x
0
, para
que cualquier sucesin de descenso x
k
converja al mnimo; por ejemplo, en el
caso que F(x) = x
4
, si x
0
= 3/2 y x
k
= x
k1
1/9
k
, se tiene una sucesin
de descenso que converge a 11/8 en lugar de al mnimo que es x
= 0. En
este caso las
k
son cada vez ms pequeas por lo que no se logra alcanzar
al mnimo. Otra situacin que puede impedir que una sucesin de descenso
converja es que las direcciones

d
k
tiendan a ser ortogonales al gradiente de
F en x
k
, sin que el gradiente g
k
converja a cero; en este caso, los puntos
que se generen quedan atrapados en una curva de nivel de F. Por ejemplo,
cuando F(x, y) = x
2
+y
2
, x
0
= (2, 1) y

d
k
= (1, x
k
/y
k
1/2
k
). Por ltimo,
puede suceder que se tome un punto x
0
que este sobre una curva de nivel
no cerrada, por ejemplo cerca de un punto silla, en ese caso la sucesin no
lograr entrar a la regin donde las curvas de nivel se vuelven elpticas o
sea cerca del mnimo. El siguiente resultado nos da condiciones para poder
garantizar que una sucesin de descenso converja a un mnimo.
Teorema 3.1.1. Si F es una funcin continuamente diferenciable que alcan-
za un mnimo relativo en x
y si F esta acotada inferiormente, las siguientes

condiciones nos permiten asegurar que una sucesin de descenso converge al
mnimo:
i).- x
0
se selecciona en una curva de nivel cerrada y acotada.
ii).- La funcin F decrece sucientemente en cada paso.
ii).- Las direcciones de descenso

d
k
no satisfacen que
lm
k
t
g
k
d
k
= 0,
sin que g
k
0 en el lmite.
El resultado formal y su demostracin pueden verse en el Luenberger [6].
Criterios para detener un algoritmo de descenso
Aunque el algoritmo de mximo descenso sea convergente al mnimo de
una funcin F, no se sabe si el nmero de iteraciones que se requieren para
ello sea nito o no. En la prctica se necesitan de criterios que nos permitan
decidir cundo hemos aproximado al mnimo con la precisin deseada. Hay
dos criterios que se usan: el criterio del gradiente y un criterio que estima el
error relativo que llamaremos el criterio de la sucesin. Recordemos que el
error que se comete al estimar el mnimo x
por medio del k-simo trmino de

una sucesin se puede calcular de dos maneras distintas: estimando el error
absoluto, que es igual a [[x
x
k
[[ o por medio del error relativo que se dene
por
E
k
=
[[x
x
k
[[
[[x
[[
y que es menos sensible a los cambios de escala.
El criterio del gradiente consiste en evaluar en cada iteracin k la norma
del gradiente de la funcin en x
k
o sea [[g
k
[[. Si la norma es cercana a cero
es de esperarse que x
k
est cerca del mnimo. El criterio de la sucesin est
basado en la idea de que en '
n
toda sucesin convergente es una sucesin de
Cauchy, es decir al aproximarnos al lmite los elementos de la sucesin distan
cada vez menos unos de otros, por ello si la expresin
[[x
i
x
i1
[[
[[x
i
[[
, (3.2)
3.2. BSQUEDA LINEAL 51
es pequea es de esperarse que estemos cerca del lmite.
Qu signica estar cerca"del cero y que (3.2) sea pequeo? Ambas
propiedades dependen de la precisin del equipo de clculo que se utilice,
es decir el nmero de dgitos que almacena en la mantisa en la notacin de
punto otante, y del grado de precisin que se desea. Para cada problema se
debe jar, de antemano, el valor de un parmetro > 0, que depender del
nmero de cifras signicativas que se deseen obtener; por ejemplo, si se de-
sean dos cifras signicativas, se escoge igual a 10
2
. La prueba del gradiente
o de la sucesin consisten en vericar, para cada iteracin x
k
, si la norma
[[g
k
[[ o la expresin (3.2) son mayores o menores que ; si son mayores, se
genera x
k+1
; si son menores o iguales se detiene el algoritmo.
3.2. Bsqueda lineal
Llamamos bsqueda lineal a la determinacin de
k
en un mtodo de
descenso. Para el caso cuadrtico, cuando F(x) =
1
2
t
xAx
t
x
b +c, es posible
determinar el valor de
k
en forma exacta para cualquier valor que tome la
direccin

d
k
;
k
debe satisfacer
dF(x
k
+
d
k
)
d
[
=
k
= 0.
Al calcular la derivada de F se obtiene
dF(x
k
+
d
k
)
d
=

d
t
k
F(x
k
+
d
k
)
=

d
t
k
[A(x
k
+
d
k
)
b],
=

d
t
k
(Ax
k
b) +
d
t
k
A
d
k
.
Como g
k
= Ax
k
b se tiene que
k
debe satisfacer que
k
=
t
d
k
g
k
t
d
k
A
d
k
. (3.3)
Determinar
k
en el caso no lineal puede ser muy engorroso. Como el
clculo de
k
tiene como objetivo generar una aproximacin mejor al mnimo,
no vale la pena gastar tiempo y esfuerzo en calcular el valor exacto, basta
con obtener una buena aproximacin que no introduzca un error que pueda
a larga hacer diverger al proceso. A continuacin se vern algunos algoritmos
para estimar el valor de
k
en un nmero pequeo de iteraciones. Estos
algoritmos se pueden calcular independientemente de cmo se determina la
direccin de descenso en el paso k, por ello se aplicarn para cualquier vector
d
k
.
Para ilustrar las dicultades que se presentan en el clculo de
k
, aplique-
mos un mtodo de descenso a la siguiente funcin objetivo F(x, y) = 16x
4
16x
3
+ 6x
2
x +
1
16
+ 3x
2
y
2
.
El gradiente de la funcin es
F(x, y)
x
= 64x
3
48x
2
+ 12x 1 + 6xy
2
= 0,
F(x, y)
y
= 6x
2
y = 0.
Supongamos que aplicamos un mtodo de descenso para aproximar el
mnimo de la funcin con

d
0
= g
0
y x
0
= (0, 0). Para determinar la
0
hay
que resolver la siguiente ecuacin
dF(x
0
+
d
0
)
d
= 64
3
48
2
+ 12 1 = 0.
Esta ecuacin es de orden cbico por lo hay que usar un esquema numrico
para aproximar la solucin. Por qu mejor no buscar un algoritmo poco
costoso que nos d una aproximacin razonable del valor de
k
sin que ten-
gamos en cada paso k que calcular explcitamente el valor de la derivada de
F respecto a ?
3.2.1. Bsqueda lineal no exacta
Deseamos encontrar un algoritmo que nos permita estimar, en cada paso
k de un mtodo de descenso, el valor de
k
sin tener que calcular dF/d.
Los algoritmos deben al menos tener las siguientes caractersticas:
1.- El algoritmo debe darnos una buena aproximacin al valor exacto de
k
en un nmero nito de pasos.
2.- En el caso cuadrtico la sucesin que se genere debe converger al valor
exacto de
k
.
3.2. BSQUEDA LINEAL 53
Sea
k
una funcin de variable real denida por
k
() = F(x
k
+
d
k
),
claramente
k
(0) = F(x
k
) y
k
(0) =

d
t
k
g
k
; adems, para cualquier mtodo de
descenso se tienen que
k
(0) < 0. Lo que se desea es obtener un procedimiento
que en cada paso k nos determine una aproximacin
k
al valor exacto de
k
que satisfaga que
k
(
k
) <
k
(0).
3.2.2. Algoritmo de Armijo
Trcese la recta que pasa por (0) con pendiente
k
(0) para alguna
(0, 1). La ecuacin de esta recta es y() =
k
(0) +
k
(0).
El algoritmo de Armijo determina un intervalo dnde se encuentran los
valores de que son buenas estimaciones de
k
; a este intervalo le llamaremos
intervalo de valores admisibles de
k
. Para ello aplica dos criterios. El primero
consiste en determinar, para cada paso k, una
k
que satisfaga que
k
(
k
)
est por debajo de la recta
k
(0) +
k
(0), es decir
k
(
k
) (0) +
k
k
(0). (3.4)
Si
k
satisface (3.4) entonces es una buena aproximacin al valor exacto
k
.
Para evitar que el nuevo punto x
k+1
= x
k
+
k
d
k
est muy cerca de x
k
, y, con
ello, avancemos muy lentamente hacia el mnimo, Armijo sugiere comprobar
si para mltiplos de
k
se sigue satisfaciendo (3.4). El procedimiento que se
sigue es el siguiente: determnese la mnima j en los enteros para la cual
k
(2
j

k
) >
k
(0) + 2
j

k
k
(0). (3.5)
Entonces el intervalo admisible de
k
es (
k
, 2
j

k
) y se sugiere escoger como
estimacin a
k
el valor de 2
j1

k
.
Apliquemos el criterio de Armijo para determinar una estimacin de
0
para la funcin no lineal F(x, y) = 16x
4
16x
3
+ 6x
2
x +
1
16
+ 3x
2
y
2
, con
x
0
= (0, 0), g
0
= (1, 0) y
0
() = 16
4
16
3
+ 6
2
+ 1/16. En este
caso el valor exacto de
0
= 1/4. Tomemos a 1/10 como el valor de . Como
primer paso, busquemos una tal que
0
()
1
16

10
.
Observemos que para = 1 no se cumple esta desigualdad pero que s se
satisface para
0
= 1/10. Como siguiente paso para determinar el intervalo
admisible, encontremos la j para la cual
0
(
2
j
10
) >
1
16

2
j
100
.
Para j = 3 ya no se cumple la desigualdad anterior, por lo tanto cualquier
valor de (0, .4) es una buena estimacin. Seleccionemos
0
= .4, entonces
x
1
= (.4, 0) y F(x
1
) = .0015 que es un valor menor a 1/16 = F(0, 0).
El algoritmo de Armijo es muy sencillo de implementar en una instrumen-
to de clculo pero, no cumple con la condicin de que para cualquier valor
de (0, 1), el mnimo de una funcin cuadrtica debe estar en el intervalo
admisible de
k
. Este inconveniente del algoritmo de Armijo es muy fcil de
comprobar: supongamos que F(x) =
1
2
t
xAx
t
x
b +c y expandamos en serie
de Taylor a
k
() alrededor de cero,
k
() puede escribirse como
k
() =
k
(0) +
d
t
k
g
k
+

2
2
d
t
k
A
d
k
,
substituyendo el valor exacto
k
dado por (3.3) y simplicando se tiene
k
(
k
) =
k
(0) +

k
2
d
t
k
g
k
=
k
(0) +

k
2

k
(0),
y la desigualdad
k
(
k
)
k
(0) +
k
k
(0)
se cumple siempre que (0, 1/2) ya que

d
t
k
g
k
0. Por lo que hay que
restringir el valor de para el algoritmo de Armijo.
3.2.3. Interpolacin cuadrtica
Otro procedimiento para aproximar el valor de
k
en la bsqueda lineal es
determinar tres puntos que estn en la regin admisible de
k
y construir un
polinomio cuadrtico que aproxime el valor de
k
() en este intervalo. Como
el polinomio es una parbola que se abre hacia arriba, dado que
k
(0) < 0,
tiene un mnimo que se utiliza como aproximacin de
k
.
Sea p(x) un polinomio cuadrtico de la forma p(x) = ax
2
+ bx + c, el
problema consiste en determinar a, b y c tales que p(0) =
k
(0), p
(0) =
k
(0) =

d
t
k
g
k
y, por ltimo, p(
0
) =
k
(
0
) con
0
un punto para el cual
3.3. MTODO DE MXIMO DESCENSO 55
k
(
0
) > 0; esto ltimo para asegurarnos que en (0,
0
) se encuentra el valor
mnimo de
k
().
Este valor se determina proponiendo un valor para
0
; si la derivada es
negativa se incrementa y se busca un nuevo punto, si el valor es positivo se
comprueba si se puede hacer ms pequeo el intervalo. Los coecientes del
polinomio satisfacen:
c =
k
(0), b =
k
(0) y a =

k
(
0
) b
0
c
2
0
.
El mnimo del polinomio se alcanza en
b
2a
por lo que se toma
k
=
b
2a
.
Ejemplo
Apliquemos este algoritmo para obtener una aproximacin a
0
en el caso
que F(x, y) = 16x
4
16x
3
+6x
2
x+
1
16
+3x
2
y
2
, con x
0
= (0, 0), g
0
= (1, 0) y
0
() = 16
4
16
3
+6
2
+1/16. Para construir el polinomio cuadrtico
p(x) usamos la informacin que p(0) =
0
(0) = 1/16, p
(0) =
0
(0) = 1 y
determinanos un valor de para el cual
0
() 0. En este caso se cumple
para = 1 por lo que sabemos que el mnimo de () (0, 1). Tratemos de
reducir el intervalo:
0
(1/2) = 1 y
0
(1/4) = 0 por lo que se ha encontrado
el valor mnimo. Si hubiramos detenido el proceso en = 1/2 el polinomio
cuadrtico tendra como coecientes:
c =
0
(0) = 1/16, b =
0
(0) = 1 y a =
(
0
(1/2) (1/2)b c)
1/4
= 2
y
0
=
b
2a
= 1/4 por lo que obtenemos el valor exacto.
Si el valor
k
que se obtiene al usar interpolacin cuadrtica no satisface
la desigualdad de Armijo, (3.4), entonces se usa interpolacin cbica que
aproxima mejor a las funciones con cambios pronunciados en la curvatura.
Para profundizar el tema de bsqueda lineal, consultar el libro de Nocedal,
ver [9]
3.3. Mtodo de mximo descenso
En la seccin anterior vimos algunos aspectos sobre los mtodos de des-
censo en general. En esta seccin comenzaremos a estudiar algunos de los
algoritmos ms usados en la optimizacin no lineal. Los algoritmos de des-
censo se distinguen entre s por la forma en la que se calcula en cada paso k
la direccin de descenso.
Dado un punto x
0
y una funcin objetivo F, cul es la direccin en la
que F decrece mas? Por el curso de clculo de varias variables sabemos que
F disminuye ms si nos movemos en la direccin de menos el gradiente de F
en x
0
ya que
g
t
0
d
0
= [[g
0
[[ [[
d
0
[[cos
y el mnimo valor que puede tomar cos es cuando = o sea cuando
d
0
= g
0
. El mtodo de mximo descenso o descenso pronunciado consiste
en seleccionar para cada paso k a g
k
como la direccin

d
k
.
Algoritmo de mximo descenso
El algoritmo consiste en los siguiente:
i).- Dado x
0
V
(x
) y > 0
ii).- x
n+1
= x
n
n
g
n
, con
F(x
n
n
g
n
) F(x
n
g
n
) '.
iii).- si [[g
n+1
[[ y
||x
n+1
xn||
||xn||
entonces x
x
n+1
y se detiene el
algoritmo.
iv).- Si no se cumplen las condiciones del inciso iii) regresar a ii) con x
n
=
x
n+1
.
Ejemplo
Apliquemos este algoritmo para el caso en que la funcin objetivo es una
funcin cuadrtica de la forma
F(x) =
1
2
x
t
Ax
b
t
x + c.
El algoritmo de mximo descenso para este caso es de la forma:
Dado x
0
V
(x
),
x
n+1
= x
n
n
g
n
,
con
n
=
g
t
n
g
n
g
t
n
Ag
n
.
Apliquemos este algoritmo al cuarto ejemplo de la seccin 2.4. que consiste
en determinar el mnimo de
F(x, y) = .01x
2
+ .01y
2
+ .007xy 485x 675y + 400, 000.
El gradiente de F esta dado por
F(x, y) = (.02x + .007y 485, .007x + .02y 675)
y la solucin exacta con dos cifras decimales es (14173.789, 28789.17). Supon-
gamos que x
0
= (10000, 20000) y que = 10
2
entonces aplicando el mtodo
de mximo descenso se obtienen los siguientes valores
Tabla 3.1
i x
i
g
i

i
[[g
i
[[ R
i
0 (10,000, 20,000) (-145, 205) 63,05 205.09 -
1 (15,450.5, 27,706.6) (17.95, 12.7) 74.64 22 .29
2 (14,110.17, 28,656.6) (-2.20, -3.11) 37.58 3.82 .05
3 (14,193., 28,772.7) (0.26, -0.19) 74.82 0.3321 .003
4 (14,172.82, 28,787.13) (-.032, -0.045) 8.34 .058 .0007
5 (14,174.08, 28788.92) (.004, -.0029) - 0.0051 .00006
donde R
i
=
||x
i
x
i1
||
||x
i
||
. Observemos que si slo hubiramos usado el criterio de
la sucesin, el proceso se hubiera suspendido en la tercera iteracin mientras
que con el criterio del gradiente se requiere generar hasta cinco iteraciones.
El error relativo al tomar a x
5
como aproximacin al mnimo es de
[[x
5
x
[[
[[x
[[
= .00001,
por lo que en este caso el criterio (3.2) es una mejor estimacin del error
relativo.
3.3.1. Convergencia del mtodo de mximo descenso
Dada una funcin objetivo F, bajo qu condiciones converge el mtodo
de mximo descenso? y con qu rapidez converge? Las respuestas a estas
preguntas nos permitirn comparar el desempeo de este mtodo respecto a
la de otros mtodos que se vern ms adelante. Las respuestas que daremos
son para el caso en que F sea una funcin cuadrtica con matriz A simtrica
y positiva denida, es decir F es de la forma
F(x) =
1
2
x
t
Ax +
b
t
x + c.
Supongamos que F alcanza su mnimo en x
y denamos una nueva funcin

E(x) de la forma
E(x) =
1
2
(x x
)
t
A(x x
).
Observemos que el mnimo de la funcin E se alcanza en x
.
Lemma 3.3.1. Sea x
k
una sucesin generada por el mtodo de descenso
pronunciado para aproximar el mnimo de una funcin F cuadrtica con
matriz A simtrica y positiva denida, entonces
E(x
k+1
) = 1
(g
t
k
g
k
)
2
g
t
k
Ag
k
g
t
k
A
1
g
k
E(x
k
).
Ver demostracin en [6].
Lemma 3.3.2. (Desigualdad de Kantorovich) Sea A una matriz n n si-
mtrica, positiva denida con
n
y
1
como los valores propios ms grande y
ms pequeo de A, respectivamente entonces
(x
t
x)
2
(x
t
Ax)(x
t
A
1
x)

4(
1
n
)
(
1
+
n
)
2
.
Ver demostracin en el [6].
Teorema 3.3.3. (Convergencia mtodo de mximo descenso para el caso
cuadrtico) Para cualquier x
0
'
n
, el mtodo de mximo descenso converge
al mnimo x
de F y
E(x
k+1
)
(
n
1
)
(
n
+
1
)
2
E(x
k
). (3.6)
con
n
y
1
como los valores propios ms grande y ms pequeo de A, res-
pectivamente.
Dem: La demostracin se obtiene de combinar los resultados de los dos
lemas anteriores
E(x
k+1
) = 1
(g
t
k
g
k
)
2
g
t
k
Ag
k
g
t
k
A
1
g
k
E[x
k
]
E(x
k+1
) 1
4
1
n
(
1
+
n
)
2
E(x
k
),
al hacer algebra se obtiene el resultado del teorema.
Dado que A es positiva denida y simtrica, la funcin E(x
k
) nos mide el
error que cometemos al aproximar x
por la k-sima iteracin en una norma

que depende de la matriz A y que se dene por
|x|
2
A
= x
t
Ax.
El resultado anterior nos permite asegurar que al cumplirse las hiptesis del
teorema
|x
k+1
x
|
A

(
n
1
)
(
n
+
1
)
|x
k
x
|
A
.
Como A es una matriz positiva denida, todos sus valores propios son posi-
tivos, por lo que
K =
(
n
1
)
(
n
+
1
)
< 1.
La desigualdad anterior nos permite garantizar que el mtodo de descenso
pronunciado converge linealmente con rapidez de convergencia K bajo la
norma |.|
A
. Recordemos que en '
n
todas las normas son equivalentes por lo
que obtenemos tambien la convergencia en la norma euclideana.
Cuando el mximo y el mnimo valor propio distan mucho entre s, el
valor de este cociente es cercano a uno, y en consecuencia la convergencia
es muy lenta. Si los valores propios estn muy cercanos, este mtodo puede
funcionar bien. Otra conclusin importante es que el mtodo de mximo
descenso converge globalmente pues el valor de K no depende de cul es el
punto inicial x
0
.
Al aplicar el resultado de este teorema para el ejemplo de los televisores.
Los valores propios de la matriz A respectiva son:
2
= .027 y
1
= .013. La
rapidez de convergencia K est dada por
K =
(
2
1
)
(
1
+
2
)
= .35.
Este valor nos permite estimar el nmero de iteraciones que se requieren para
obtener la precisin que se desea. De la expresin (3.6) se obtiene una cota
del error que se comete en la n sima iteracin que depende de K y el error
inicial
|x
n
x
|
A
K
n
|x
0
x
|
A
.
Si se desea obtener una precisin , hay que calcular cul valor debe tomar
n para que
K
n
|x
0
x
|
A
.
Al despejar n se obtiene
n
ln ln(|x
0
x
|
A
)
ln(K)
. (3.7)
En el caso de los televisores si = 10
2
entonces n 11.38. Se requieren
de al menos doce iteraciones para obtener la precisin deseada. Esta cota es
conservadora: en la prctica, en un nmero menor de iteraciones se obtiene
la precisin deseada.
3.3.2. Aplicacin al caso no lineal
Si la funcin objetivo es cualquier funcin no lineal, la convergencia del
mtodo de mximo descenso depende fuertemente de las caractersticas de
la funcin. En caso de que haya convergencia, sta ser lineal y la rapidez
de convergencia se puede estimar a partir de los valores propios del Hessiano
de la funcin objetivo, evaluados en el mnimo x
. Si
n
y
1
son los valores
propios mximo y mnimo, respectivamente, de H
F
(x
) entonces
K
(
n
1
)
(
n
+
1
)
.
Los valores propios se pueden estimar por medio del Hessiano evaluado en
x
k
. Apliquemos este algoritmo a la funcin F(x, y) = 3x
2
+y
2
x
4
12 con
bsqueda lineal inexacta aplicando interpolacin.
Tabla 3.2
i x
i
[[g
i
[[
0 (1/3,1.) 2.8284
1 (.038,.6) 1.2218
2 (.053,.12) .4
3 (-.010,.072) .15
4 (.0021,.043) .08
5 (-.00296,.0086) .024
6 (.00059,.005) .01
7 (-.0008,.001) .0054
8 (.00016,.0008) .0015
El punto mnimo de este problema es (0, 0). Observemos que el error
absoluto en la octava iteracin es de .0008 mientras que el criterio del gra-
diente nos da .0015. Los valores propios del Hessiano en (0, 0) son
1
= 6 y
2
= 2. La rapidez de convergencia es 1/2. Por lo que para tener tres cifras
signicativas se requiere de al menos 8 iteraciones.
Apliquemos este algoritmo a otra funcin un poco ms compleja: F(x, y) =
16x
4
16x
3
+ 6x
2
x +
1
16
+ 3x
2
y
2
, con x
0
= (1, 1) y con bsqueda lineal
inexacta.
Tabla 3.3
i x
i
[[g
i
[[ R
i
0 (1,1) 57.05 1.4142
1 (.94,.998) 49.59 .041
2 (.89,.996) 43.84 .037
3 (.84,.994) 39.25 .033
4 (.81,.993) 35.53 .030
5 (.77,.991) 32.44 .028
10 (.635,.986) 22.62 .020
20 (.5097,.982) 16.31 .0014
30 (.5052,.9824) 16.12 .00014
El mnimo de esta funcin esta en (1/4, 0). Observemos que en la treintava
iteracin el error absoluto es de 1.01 que es enorme. Los valores propios del
Hessiano en la solucin son:
1
= 24 y
2
= 0.375; as que la rapidez de
convergencia es aproximadamente de 0.9692. Al usar la expresin (3.10) para
estimar el nmero de iteraciones que son necesarias para tener dos cifras
signicativas, obtenemos que n es mayor o igual a 113. Esto en el caso de
bsqueda lineal exacta. Por lo que no es de sorprenderse que en el mtodo de
mximo descenso no sea muy usado para estimar la solucin de problemas
reales.
3.4. Mtodo de Newton
Como vimos en el captulo anterior, el mtodo de mximo descenso es muy
fcil de implementar computacionalmente pero, desgraciadamente, converge
muy lentamente debido a que su orden de convergencia es lineal. A contin-
uacin se estudiar el mtodo de Newton que tiene convergencia cuadrtica
cerca del mnimo.
El mtodo de Newton es un mtodo diseado para converger en una sla
iteracin cuando la funcin a minimizar es cuadrtica. El mtodo consiste en
minimizar en cada iteracin k una funcin cuadrtica G
k
(x) que se obtiene al
expander en serie de Taylor a F(x) alrededor de x
k
hasta el segundo trmino.
Es decir, G
k
(x) es igual a
G
k
(x) = F(x
k
) + (x x
k
)
t
g
k
+
1
2
(x x
k
)
t
H
F
(x
k
)(x x
k
).
Para obtener el mnimo de G
k
(x) obtenga su gradiente e igulelo a cero
G
k
(x) = g
k
+ H
F
(x
k
)(x x
k
) = 0;
entonces, el mnimo se alcanza en
x = x
k
H
F
(x
k
)
1
g
k
,
siempre que el Hessiano de F en x
k
sea positivo denido. El mtodo de
Newton selecciona en cada paso como el punto x
k+1
al mnimo de la funcin
G
k
(x).
3.4.1. Algoritmo de Newton
El algoritmo de Newton es el siguiente: Dada una funcin F dos veces
continuamente diferenciable en una vecindad V
del mnimo x
, x
0
en V
(x
)
y rtol > 0 como la tolerancia:
1. Determine

d
k
resolviendo primero el sistema
H
F
(x
k
)
d
k
= g
k
. (3.8)
3.4. MTODO DE NEWTON 63
2. Calclese x
k+1
por medio de la expresin
x
k+1
= x
k
+

d
k
. (3.9)
3. Si [[g
k+1
[[ rtol y
||x
k+1
x
k
||
||x
k+1
||
rtol entonces se toma a x
x
k+1
4. Si no se cumple lo anterior se regresa a 1 y se calcula x
k+2
.
Es el mtodo de Newton un mtodo de descenso? Observemos que la
expresin (3.8) nos indica que en cada iteracin se escoge como direccin a
d
k
a H
F
(x
k
)
1
g
k
. Newton es efectivamente un mtodo de descenso ya que
t
g
k
d
k
= g
t
k
H
1
F
(x
k
)g
k
0
y esto se cumple siempre que H
F
(x
k
) sea una matriz semipositiva denida
para cada iteracin k. Esta ltima condicin debe restringirse a que H
F
(x
k
)
sea estrictamente positiva denida para garantizar que el sistema de ecua-
ciones a resolver admite una nica solucin. Por lo tanto, Newton converger
siempre que la vecindad del mnimo que se seleccione sea sucientemente
pequea como para poder garantizar que el Hessiano, evaluado en cualquier
punto de esa vecindad, es positivo denido.
El clculo de la direccin requiere conocer el Hessiano, por lo que se
clasica a Newton como un mtodo tipo Hessiano en contraste con el de
descenso pronunciado que es un mtodo de gradiente, pues slo requiere esta
informacin para calcular la direccin.
Por otro lado, el mtodo de Newton se puede modicar para controlar el
paso en cada iteracin. En este caso el paso 2 se cambia a
x
k+1
= x
k
+
k
d
k
,
con
k
que satisface
F(x
k
+
k
d
k
) F(x
k
+
d
k
), '.
3.4.2. Caso cuadrtico
Denicin 3.4.1. Diremos que un algoritmo tiene terminacin cuadrtica
si converge para todo punto inicial x
0
al mnimo de una funcin cuadrtica
en al menos n de pasos, donde n es el nmero de incognitas del problema.
Lemma 3.4.2. El mtodo de Newton tiene terminacin cuadrtica.
Supongamos que F es una funcin cuadrtica de la forma F(x) =
1
2
x
t
Ax
x
t
b +c con A matriz simtrica y positiva denida; dado x

0
y
0
= 1 se tiene
que
A
d
0
= F(x
0
) = (Ax
0
b),
o sea A(x
1
x
0
) + Ax
0
=
b, lo que implica que

Ax
1
=
b.
Por lo que x
1
satisface que el gradiente evaluado en x
1
: g
1
= Ax
1

b es
igual a cero y por lo tanto es el mnimo de F. As que el mtodo de Newton
converge globalmente al mnimo en una sla iteracin siempre que la matriz
A sea positiva denida.
En el caso del mtodo de descenso no puede asegurarse que para todo
punto inicial x
0
se converger en n iteraciones, por lo que no tiene terminacin
cuadrtica. Vea el lector el ejemplo 3.1 de la seccin anterior.
3.4.3. Caso general
Iniciaremos esta seccin demostrando la convergencia del mtodo de New-
ton cuando F es una funcin no lineal.
Teorema 3.4.3. Sea x
un mnimo local de una funcin F. Supngase que

1. F es tres veces diferenciable en una vecindad de radio de x
: V
(x
) .
2. El Hessiano de F, H
F
(x
), es positivo denido.
3. El punto inicial x
0
est en una V
(x
) para pequea y menor o igual

que .
Entonces la sucesin x
k+1
, denida por
x
k+1
= x
k
H
F
(x
k
)
1
g
k
,
converge a x
y el orden de convergencia es dos.

Dado que F C
3
(V
(x
)), existe una constante positiva

1
tal que para
toda x V
(x
) se cumple que
[[H
1
F
(x)[[ <
1
. (3.10)
Adems, usando la misma hiptesis y la serie de Taylor, se tiene que
F(x
) = F(x) + H
F
(x)(x
x)
+
1
2
(x
x)
t
D
3
F(x + (1 )x
)(x
x),
para alguna (0, 1). Por lo que existe
2
> 0 tal que
[[F(x
) F(x) H
F
(x)(x
x)[[
1
2
[[D
3
F(x + (1 )x
)[[ [[(x
x)[[
2

2
[[x
x[[
2
. (3.11)
Supongamos que se elige > 0 tal que para toda x estando en V
(x
) se
cumple que
1

2
[[x
x[[ < 1.
Para demostrar convergencia cuadrtica hay que probar que existe una
K > 0 tal que
e
k+1
Ke
2
k
.
Si en la k-sima iteracin del mtodo de Newton x
k
est en V
(x
), se
tiene que
e
k+1
= [[x
k+1
x
[[ = [[x
k
x
H
F
(x
k
)
1
F(x
k
)[[.
Factorizando la inversa del Hessiano se tiene que
e
k+1
[[H
F
(x
k
)
1
[[ [[H
F
(x
k
)(x
k
x
) F(x
k
)[[
y usando el hecho que F(x
) = 0
e
k+1
[[H
F
(x
k
)
1
[[ [[F(x
) F(x
k
) H
F
(x
k
)(x
x
k
)[[.
Por ltimo, al usar las desigualdades (3.10) y (3.11) se obtiene que
e
k+1
[[H
F
(x
k
)
1
[[
2
[[x
x
k
[[
2

1

2
[[x
x
k
[[
2
.
Por lo que el mtodo converge y la convergencia es cuadrtica para una
vecindad de dimetro menor que . La suposicin que x
k
V
(x
) se cumple
por la hiptesis que se hizo de que x
0
estuviera lo sucientemente cerca de
x
y de la manera en que se determin .

El teorema anterior nos permite garantizar convergencia cuadrtica siem-
pre que H
F
sea positiva denida para alguna vecindad de radio de x
. Por
ello, la convergencia en el caso general es local pues depende fuertemente de
la que se seleccione. El problema principal al que se enfrenta uno al tratar
de aplicar Newton es el determinar una que nos garantice las hiptesis del
teorema anterior.
Recordemos que una matriz positiva denida es invertible y que su inversa
es positiva denida. Cmo checar que una matriz es positiva denida al
mismo tiempo que se resuelve el sistema? Por medio del mtodo de Cholesky.
Si al factorizar la matriz H
F
(x
k
) por medio de Cholesky el algoritmo falla,
la matriz no es positiva denida.
3.4.4. Ejemplos
1. Aplicar el mtodo de Newton para aproximar el mnimo de F(x, y) =
3x
2
+ y
2
x
4
12 tomando como x
0
= (1/3, 1).
Tabla 3.4
i x
i
[[g
i
[[
0 (1/3,1.) 2.725
1 (-.405,0) 2.164
2 (-.205,0) 1.19
3 (-.064,0) .3833
4 (-.0074,0) .0446
5 (-.0001,0) .00065
6 (-2.3 10
8
,0) 1.42 10
7
En este caso la convergencia es cuadrtica porque x
0
se encuentra en
la regin de convergencia de Newton que es de radio 1/2. Compare el
lector para este ejemplo el desempeo de Newton con el de descenso
pronunciado.
2. Usar Newton para determinar el mnimo de F(x, y) = 16x
4
16x
3
+
6x
2
x +
1
16
+ 3x
2
y
2
, con x
0
= (1, 1).
Tabla 3.5
i x
i
[[g
i
[[ R
i
0 (1.,1.) .687677 12.8097
1 (.8327,-.1607) .6876 3.8339
2 (.6412,.0138) .09333 3.8339
3 (.5108,.0009) .0417 1.1360
4 (.4239,.0001) .02897 .3366
5 (.3659,.00004) .01870 .099
6 (.3272,.00001) .01115 .029
7 (.3015,.000003) .00619 .0087
8 (.2843,.000001) .0007 .0002
15 (.2529,3.6 10
9
) 3.7 10
5
1.5 10
6
En este caso, la convergencia de Newton no es cuadrtica y esto se
debe a que en la vecindad de radio uno del mnimo no se cumple las
condiciones del teorema 3.4.3. La matriz es semidenida positiva en el
origen e indenida en otros puntos.
En suma el mtodo de Newton tiene como gran ventaja la de tener con-
vergencia cuadrtica pero se consigue a un alto costo: por un lado, se requiere
calcular en cada iteracin el Hessiano y resolver un sistema de ecuaciones.
Otro inconveniente ms es el determinar una vecindad donde se garantice
convergencia. Para ilustrar estas dicultades, trate el lector de aproximar la
solucin del ejemplo 1 iniciando con x
0
= (1/2, 1) o el origen. La matriz en
ese caso no es positiva denida. Otra dicultad que puede presentarse es que
la funcin a minimizar no sea dos veces diferenciable en la vecindad del mn-
imo. Con objeto de superar estos problemas se sugiere hacer las siguientes
modicaciones al mtodo de Newton.
3.4.5. Modicaciones al mtodo de Newton
1. Supongamos que iniciamos con un punto x
0
, en una vecindad V
en la
que el Hessiano sea positivo denido para todo punto en ella. Que
hacer si en la k-sima iteracin el Hessiano se vuelve indenido o
semidenido positivo? Lo que se sugiere es resolver un sistema distinto
a (3.8), construyendo una matriz M
k
de la forma
M
k
= H
F
(x
k
) + I, (3.12)
con un real positivo. Observemos que si 0 la matriz M
k
converge
al Hessiano pero, si la direccin converge al gradiente. El punto
delicado de esta modicacin es determinar la adecuada para que la
matriz M
k
sea positiva denida. Hay varias estrategias, entre ellas usar
la factorizacin de Cholesky del Hessiano.
2. Otra dicultad que puede presentarse en la aplicacin del mtodo de
Newton es que la funcin a minimizar no sea dos veces diferenciable
o que el clculo de sus segundas derivadas sea sumamente costoso. En
este caso las derivadas pueden aproximarse usando diferencias nitas:
suponga que se tiene x
k
entonces
H
F
(x
k
)
ij

F(x
k
+ he
j
)
i
F(x
k
)
i
h
,
En este caso se introduce un error debido a la discretizacin y es del
orden de h.
Debido a las dicultades que presenta Newton, muchos trabajos se han
publicado respecto a cmo obtener un mtodo que tenga convergencia su-
perior al de descenso pronunciado sin requerir en cada paso del clculo del
Hessiano. Estas investigaciones han dado lugar a los mtodos Cuasi-Newton,
los cuales son los mtodos ms usados en la prctica. Para aquellos lectores
que les interese conocer estos mtodos se sugiere el libro de Dennis [2], Fletch-
er [4], Gill et al [3] y el Scales [11].
3.5. Mtodo de gradiente conjugado
El mtodo de gradiente conjugado tiene como objetivo tener terminacin
cuadrtica.
Denicin 3.5.1. Se dice que
d
k
n
k=1
son vectores mutuamente conjugados
respecto a una matriz G simtrica y positiva denida si
d
t
k
G

d
j
= 0 j ,= k. (3.13)
Ejemplo
Sea
3.5. MTODO DE GRADIENTE CONJUGADO 69
_
2 1
1 2
_
observemos que la matriz G es simtrica y positiva denida, (1, 0) y (1/2, 1)
son mutuamente conjugados respecto a G.
Dada una matriz G positiva denida y simtrica y un vector v cmo se
construye un conjunto de vectores conjugados respecto a la matriz G ? Por
un procedimiento similar al de Gramm-Schimdt que nos permite construir,
a partir de un conjunto de vectores linealmente independientes, un conjunto
de vectores ortogonales. Observemos que ser ortogonales es lo mismo que
ser conjugados cuando la matriz G es la identidad. El procedimiento es el
siguiente: dado

d
1
= v
1
y v
1
, v
2
, . . . , v
n
linealmente independientes desde
i = 1, . . . , n
d
i+1
= v
i+1
k=1
v
t
i+1
G

d
k
d
t
k
G

d
k
d
k
.
Es fcil probar que
d
1
, . . . ,

d
n
forma un conjunto mutuamente conjugado
respecto a la matriz A.
Apliquemos este procedimiento para construir un conjunto de vectores
conjugados respecto a la matriz G
_
_
2 1 0 0
1 2 1 0
0 1 2 1
0 0 1 2
_
_
.
Tomemos la base cannica e
i
de '
4
;

d
1
= e
1
y

d
2
= e
2
1/2

d
1
=
(1/2, 1, 0, 0),
d
3
= e
3
+
2
3
d
2
=
1
3
(1, 2, 1, 0)
y
d
4
= e
4
+
3
4
d
3
=
1
4
(1, 2, 3, 4).
Lemma 3.5.2. Todo conjunto de vectores conjugados a una matriz G son
linealmente independientes.
Tomemos una combinacin lineal de n vectores v
i
mutuamente conjugados
respecto a una matriz G y supongamos que existen contantes c
i
' tales
que
n
i=1
c
i
v
i
= 0.
Entonces si denotamos como <, > el producto escalar usual en '
n
,
0 =<
n
i=1
c
i
Gv
i
, v
j
>=
n
i=1
c
i
v
t
j
G v
i
= c
j
v
t
j
G v
j
y esto implica que c
j
= 0 para toda j desde uno hasta n. Por lo tanto, el con-
junto v
1
, . . . , v
n
son linealmente independientes. De este lema se desprende
que dada una matriz n n a lo ms hay n vectores conjugados respecto a la
matriz G.
La idea del mtodo de gradiente conjugado es tomar un mtodo de descen-
so en que las direcciones sean conjugadas respecto al Hessiano de la funcin
cuadrtica que se desea minimizar. Es decir, si F es una funcin cuadrtica
de la forma:
F(x) =
1
2
x
t
A x x
t
b + c.
El algoritmo de descenso con direcciones conjugadas

d
k
respecto a la matriz
A es de la forma:
Dado x
0
V
(x
)
x
k+1
= x
k
+
k
d
k
,
con
k
que satisface
k
=
g
t
k
d
k
d
t
k
Ad
k
,
con

d
t
k
A

d
j
= 0 si j ,= k para j = 1, . . . , k 1 y

d
t
k
A

d
k
> 0.
A estos algoritmos se les conoce con el nombre de algoritmos de direccin
conjugada.
Lemma 3.5.3. El algoritmo anterior tiene terminacin cuadrtica si hay
bsqueda lineal exacta y F es cuadrtica.
Denamos como
x
k
= x
k+1
x
k
=
k
d
k
. (3.14)
Si g
k
= g
k+1
g
k
entonces por la serie de Taylor
g
k+1
= g
k
+ A x
k
y
g
k
= A x
k
=
k
A

d
k
. (3.15)
Supongamos que estamos en la k-sima iteracin y an no determinamos
el mnimo, escriba a g
k
como
g
k
= g
k
g
k1
+g
k1
g
j+1
+g
j+1
= g
j+1
+
k1
i=j+1
g
i
,
para j = 0, 1, . . . , k 1. Multiplicando por

d
j
se tiene
d
t
j
g
k
=

d
t
j
g
j+1
+
k1
i=j+1
d
t
j
g
i
.
Substituyendo g
i
=
i
A

d
i
se tiene que
d
t
j
g
k
=

d
t
j
g
j+1
+
k1
i=j+1
d
t
j
A
d
i
=

d
t
j
g
j+1
,
por ser las direcciones conjugadas desde j = 0 hasta k 1.
Por otro lado, recordemos que para el caso cuadrtico, si hay bsqueda
lineal exacta, se tiene que
dF(x
k+1
)
d
=

d
t
k
g
k+1
= 0
y esto es vlido para toda k. Por lo tanto

d
t
j
g
k
= 0 para toda j desde 1 hasta
k 1.
Supongamos que k = n entonces se cumple que
d
t
j
g
n
= 0 j = 0, . . . , n 1.
Como g
n
'
n
y es ortogonal a n vectores linealmente independientes, la
nica posibilidad es que g
n
sea cero. Por lo que el mnimo debe ser x
n
y
hemos demostrado que a lo ms en n iteraciones converge al mnimo.
De esta forma se liga el concepto de vectores conjugados respecto a una
matriz A y la terminacin cuadrtica. Resta para tener un algoritmo que
determine en cada paso k una direccin conjugada respecto a las anteriores.
3.5.1. Algoritmo de Gradiente Conjugado
1. Dado x
0
V
(x
) y

d
0
= g
0
2. Para k = 0, 1, ..
x
k+1
= x
k
+
k
d
k
,
con
k
=
g
t
k
d
k
d
t
k
A

d
k
. (3.16)
3. La direccin

d
k+1
se calcula por
d
k+1
= g
k+1
+
k
d
k
, (3.17)
con
k
=
g
t
k+1
A

d
k
d
t
k
A

d
k
. (3.18)
4. Si [[g
k+1
[[ rtol y
||x
k+1
x
k
||
||x
k
||
x
k+1
k+2
.
Apliquemos el algoritmo para determinar el mnimo de F(x, y) = x
2
+
xy + y
2
. El gradiente es F(x, y) = (2x + y, x + 2y). Tomemos como x
0
a
(2, 1) entonces g
0
= (3, 0),
0
= 1/2 y x
1
= (1/2, 1). Adems
1
= 1/4,
d
1
= (3/4, 3/2) y
1
= 2/3, por lo que x
2
= (0, 0) que es la solucin.
Observemos que en dos iteraciones alcanzamos el mnimo.
Teorema 3.5.4. El algoritmo de gradiente conjugado es un algoritmo de
direcciones conjugadas.
Este resultado se demuestra a partir del siguiente lema; para denotar que
un conjunto de n vectores genera un espacio se usar la notacin:
Genv
1
, v
2
, . . . , v
n
.
Lemma 3.5.5. Las siguientes relaciones se cumplen en la k-sima iteracin
1.
Geng
0
, g
1
, . . . , g
k
= Geng
0
, Ag
0
, . . . , A
k
g
0
. (3.19)
2.
Gen
d
0
, . . .

d
k
= Geng
0
, Ag
0
, . . . , A
k
g
0
. (3.20)
3.
d
t
j
A

d
k
= 0 j = 0, . . . k 1. (3.21)
Observemos que el
k
en la expresion (3.16) es el valor exacto de la
bsqueda lineal en el caso cuadrtico.
Demostremos el lema por induccin. Es muy fcil ver que se cumple para
k = 0. Supongamos entonces que se cumple para n = k y probmoslo para
n = k + 1 para la igualdad (3.19), es decir que g
k+1
g
0
, Ag
0
, . . . , A
k+1
g
0
.
Por la igualdad (3.14) se tiene que
g
k+1
= g
k
+
k
A
d
k
.
Los vectores g
k
y

d
k
estn en g
0
, Ag
0
, . . . , A
k
g
0
por hiptesis de induccin,
por lo que
A

d
k
GenAg
0
, A
2
g
0
, . . . , A
k+1
g
0
y por lo tanto
g
k+1
GenAg
0
, A
2
g
0
, . . . , A
k+1
g
0
.
As que
Geng
0
, g
1
, . . . , g
k+1
Geng
0
, Ag
0
, . . . , A
k+1
g
0
.
Para demostrar la igualdad, observemos primero que por el lema 3.5.3,

d
t
j
g
k+1
=
0 para j = 0, . . . , k. Por hiptesis de induccin como la igualdad (3.19) se
cumple para i desde cero hasta k, entonces g
k+1
es ortogonal al subespacio
Geng
0
, Ag
0
, . . . , A
k
g
0

y por lo tanto para que se cumpla (3.19) debe existir una c ,= 0 tal que
g
k+1
= c A
k+1
g
0
lo que implica que
A
k+1
g
0
Geng
0
, g
1
, . . . , g
k+1
.
As se concluye que se cumple la igualdad (3.19).
Pasemos a demostrar la segunda igualdad haciendo uso de la igualdad
anterior (3.19) para k + 1 y que la igualdad (3.20) se cumple para k. La
nueva direccin

d
k+1
se calcula por
d
k+1
= g
k+1
+
d
k
.
Por hiptesis de induccin

d
k
Geng
0
, g
1
, . . . , g
k
y a su vez g
k+1
est en
Geng
0
, g
1
, . . . , g
k
, g
k+1
.
Para demostrar la igualdad, sabemos por el inciso anterior que
A
k+1
g
0
Geng
0
, g
1
, . . . , g
k
, g
k+1
,
entonces por hiptesis de induccin
A
k+1
g
0
Gen
d
0
,

d
1
, . . . ,

d
k
, g
k+1
y usando la relacion (3.17) concluimos que

A
k+1
g
0
Gen
d
0
,

d
1
, . . . ,

d
k
,

d
k+1
.
Por ltimo para demostrar que las direcciones son conjugadas, retomemos
la igualdad (3.17) y multipliquemos ambos lados de la igualdad por la matriz
A
A
d
k+1
= Ag
k+1
+
k
A
d
k
,
y multiplicando por

d
t
j
para j = 0, . . . , k 1 se obtiene
d
t
j
A

d
k+1
=
d
t
j
A g
k+1
porque, por la hiptesis de induccin, las direcciones son conjugadas para
j = 1, . . . , k. Usemos que la matriz A es simtrica, entonces
d
t
j
A g
k+1
= g
t
k+1
A

d
j
y como
A

d
j
Ag
0
, A
2
g
0
, . . . , A
j+1
g
0
al usar de nuevo que g

k+1
es ortogonal a este ltimo conjunto para j =
0, . . . , k 1 se tiene que
d
t
j
A g
k+1
= 0
y por lo tanto

d
k+1
es conjugada a todas las direcciones desde

d
0
hasta

d
k1
.
Para demostrar que tambin esto se cumple para

d
k
basta con substituir el
valor de
k
en la igualdad (3.17). Por lo tanto el algoritmo es de direcciones
conjugadas y por ende tiene terminacin cuadrtica.
Observemos que y pueden expresarse en forma ms sencilla y ms
barata cuando hay bsqueda lineal exacta. Retomando la igualdad (3.16) se
tiene que
k
=
g
t
k
d
k
d
t
k
A
d
k
=
g
t
k
(g
k
+
k
d
k1
)
d
t
k
A
d
k
=
g
t
k
g
k
d
t
k
A
d
k
,
ya que g
t
k
d
k1
= 0. Substituyamos esta expresin en (3.18)
k
=
k
g
t
k+1
A
d
k
g
t
k
g
k
=
g
t
k+1
g
k
g
t
k
g
k
. (3.22)
Esta expresin se puede simplicar si recordamos que g
k+1
y g
k
son ortogo-
nales entonces
k
=
g
t
k+1
g
k+1
g
t
k
g
k
. (3.23)
Dependiendo de que forma se calcule
k
el algoritmo de gradiente con-
jugado respectivo recibe un nombre distinto dando crdito a quien primero
lo utiliz de esa manera. Por ejemplo cuando se usa (3.22) se conoce como
la versin de Polak y Ribire y la versin que usa (3.23) es la de Fletcher y
Reeves.
La terminacin cuadrtica del mtodo de gradiente conjugado se cumplir
siempre que no haya errores de redondeo. Ilustremos el comportamiento de
este mtodo aplicndolo para determinar el mnimo del ejemplo de la seccin
anterior. En ese caso
F(x, y) = .01x
2
+ .01y
2
+ .007xy 485x 675y + 400, 000.
El gradiente de F est dado por
F(x, y) = (.02x + .007y 485, .007x + .02y 675)
y la solucin exacta con dos cifras decimales es (14, 173.789, 28, 789.17).
Supongamos que x
0
= (10000, 20000) entonces
Tabla 3.6
i x
i
[[g
i
[[ R
i
0 (10,000,20,000) 205.09
1 (15 451,27 706.7) 22 .2975
2 (14 173.79,28 789.17) 1.6 10
13
5 10
2
En este caso en dos iteraciones se alcanza el mnimo. Qu sucede en el
caso no lineal, se puede aplicar este mtodo? La respuesta es armativa, pero
hay que hacer notar que para funciones no lineales la terminacin cuadrtica
se pierde, por lo que a las n iteraciones habremos agotado el conjunto de
direcciones conjugadas, es decir cualquier otra ser una combinacin lineal
de las anteriores. Para evitar este problema se reinicializa el proceso cada n
iteraciones tomando como direccin inicial a g
n
. Entonces las modicaciones
que hay que hacerle al algoritmo para el caso no lineal son las siguientes:
3.5.2. Algoritmo gradiente conjugado: caso no lineal
1. Dado x
0
V
(x
), y una tolerancia rtol > 0;

d
0
= g
0
2. Para k = 0, 1, . . .
x
k+1
= x
k
+
k
d
k
,
con
k
' que satisface
F(x
k
+
k
d
k
) F(x
k
+
d
k
), '.
3. La direccin

d
k+1
se calcula por
d
k+1
= g
k+1
+
k
d
k
,
con
k
=
g
t
k+1
H
F
(x
k
)

d
k
d
t
k
H
F
(x
k
)

d
k
, si k < n.
Si k n,
k
= 0 y volver a iniciar a partir de k = 0.
4. Si [[g
k+1
[[ rtol y
||x
k+1
x
k
||
||x
k+1
||
x
k+1
k+2
.
Para que el algoritmo no entre en un ciclo innito se requiere de aco-
tar el nmero mximo de iteraciones que se lleven a cabo. Apliquemos este
algoritmo a los ejemplos que se presentan en la seccin 3.3.2.
1. Aplicar el mtodo de gradiente conjugado para aproximar el mnimo
de F(x, y) = 3x
2
+ y
2
x
4
12 tomando como x
0
= (1/3, 1).
Tabla 3.6
i x
i
[[g
i
[[
0 (1/3,1.) 2.725
1 (-.18429,.33447) 1.3314
2 (-.06139,.19170) .5297
3 (-.03273,.09295) .270
4 (-..01518,.04768) .1318
5 (-.00812,.023) .067
6 (.0037,.011) .032
7 (.00202,.0058) .016
En la sptima iteracin se tienen dos cifras signicativas. Comparando
con Newton observamos la convergencia es ms lenta y que es lineal
pero es mucho ms rpida que la de descenso pronunciado. En ambos
ejemplos se usa la expresin (3.16) para estimar el valor de .
2. Usar Newton para determinar el mnimo de F(x, y) = 16x
4
16x
3
+
6x
2
x +
1
16
+ 3x
2
y
2
, con x
0
= (1, 1).
Tabla 3.7
i x
i
[[g
i
[[ R
i
0 (1.,1.) .687677 12.8097
1 (.7124,.9477) 10.57 24.67
2 (.8208,-.01419) 11.9064 1.17
3 (.6305,-.01327) 3.5279 .301
4 (.6305,-.0038)) 3.5279 .014
5 (.5037,-.0034) 1.0453 .005
10 (.3251,-.00009) .027 .115
13 (.2722,-.00001) 7.07 10
4
.04
El error relativo en la treceava iteracin es de .08. La convergencia es
mejor que descenso pronunciado, pero menos buena que Newton. En
este ejemplo el criterio de la sucesin es un mejor indicador de cul es
el error relativo que el gradiente.
.
Por ltimo observemos que el mtodo de gradiente conjugado es un mto-
do de descenso ya que por la igualdad (3.17)
d
k
= g
k
+
k
d
k1
.
Multipliquemos ambos lados de la igualdad por el vector g
k
g
t
k
d
k
= g
t
k
g
k
+
k
g
t
k
d
k1
= g
t
k
g
k
0
porque g
t
k
d
k1
= 0 al haber bsqueda lineal exacta.
3.6. Ejercicios
1. Qu tipo de convergencia tiene el siguiente algoritmo para determinar
la raz cuadrada de un nmero a > 1?
x
k+1
=
1
2
(x
k
+
a
x
k
).
2. Considere los siguientes problemas cuadrticos: Determine el mnimo
de
f(x, y) = x
2
+ y
2
3x + 2y + 1, con x
0
= (0, 0).
f(x, y) = 2x
2
xy + 15y
2
2x + 3y + 4, con x
0
= (0, 0).
Determine cul es la rapidez de convergencia del mtodo de descenso
pronunciado cuando se aplica a los problemas anteriores. Cuntas ite-
raciones se requieren para tener dos cifras signicativas? Aplique el
mtodo para el primer caso y compare el nmero de iteraciones que
se necesitan con bsqueda lineal exacta, para obtener la aproximacin
deseada. Qu observa? Aplique el criterio de la sucesin y del gradiente
y compare con el error relativo. Qu sucede si aplica interpolacin
cuadrtica en el paso de la bsqueda lineal si se usa como tolerancia a
10
2
?
3.6. EJERCICIOS 79
3. Aplique descenso pronunciado con bsqueda lineal exacta para deter-
minar el punto crtico de F(x, y) = x
2
2xy
1
2
(y
2
1). Converge?
Por qu?
4. Aplique descenso pronunciado para determinar el mnimo de F(x, y) =
1
2
x
2
2xy + 2y
2
tomando como x
0
= (1, 1). Converge? Por qu?
5. Puede aplicarse Newton para aproximar la solucin del ejercicio 3 (jus-
tique su respuesta).
6. Aplique Newton para determinar el mnimo de la segunda funcin del
ejercicio 1. Tiene terminacin cuadrtica?
7. Considere la funcin F(x, y) = 16x
4
16x
3
+6x
2
x+
1
16
+3x
2
y
2
. Puede
aplicar Newton iniciando en x
0
= (1/2, 1)? Modique el Hessiano a
H
F
+ I para aplicar este algoritmo. Que valor seleccion de . Por
qu? Compruebe que tambin se puede usar los valores propios para
determinar el valor de . Proponga un algoritmo que determine
tomando en cuenta el valor de los valores propios.
8. Construya un conjunto de vectores conjugados respecto a la matriz A.
_
_
10 7 8 7
7 5 6 5
8 6 10 9
7 5 9 20
_
_
.
9. Demuestre que el mtodo de gradiente conjugado tiene convergencia
lineal.
10. Justique porque el mtodo de gradiente conjugado puede aplicarse
para aproximar la solucin de un sistema lineal Ax =

b con A una
matriz n por n cualquiera que sea simtrica y positiva denida. En
cuntas iteraciones converger? Por qu?
11. Aplicar el algoritmo de gradiente conjugado para aproximar la solucin
del sistema Ax = b
_
_
2 1 0 0 0
1 2 1 0 0
0 1 2 1 0
0 0 1 2 1
0 0 0 1 2
_
_
con
t
b = (1, 0, 0, 0, 0).
12. Aplicar gradiente conjugado a las funciones del ejercicio 1.
13. Sea F(x, y) = 100
xy
+x+10. Determine si tiene un punto mnimo en
A = (x, y)[ x, y 0. Si se aplica descenso pronunciado, aproximada-
mente cuntas iteraciones se requieren para tener un error menor a
10
1
?
Captulo 4
Mnimos cuadrados no-lineales
Los problemas de mnimos cuadrados lineales y no-lineales tienen gran
importancia en las aplicaciones tanto en la estimacin de parmetros de fun-
ciones conocidas como en la construccin de funciones que aproximen obser-
vaciones de un fenmeno. En el captulo 2 se present el caso de cmo con-
struir un ajuste polinomial cuando se tiene una tabla de observaciones para
los cuales no se consideran errores de medicin. En este caso el problema de
optimizacin es el siguiente: Dadas (x
i
, y
i
) observaciones con i = 1, . . . , m
determinar el polinomio p
n
(x) = a
n
x
n
+a
n1
x
n1
+ +a
1
x +a
0
tal que se
minimice
m
i=1
[p
n
(x
i
) y
i
]
2
.
Este problema es equivalente a determinar el vector a = (a
0
, a
1
, . . . , a
n
)
'
n+1
solucin del siguiente problema de minimizacin:
Min|Xa y|
2
con
X =
_
_
_
_
_
_
_
_
1 x
1
x
2
1
. . . x
n
1
1 x
2
x
2
2
. . . x
n
2
1 x
3
x
2
3
. . . x
n
3
. . .
1 x
m
x
2
m
. . . x
n
m
_
_
_
_
_
_
_
_
y y
t
= (y
1
, . . . , y
m
).
81
82 CAPTULO 4. MNIMOS CUADRADOS NO-LINEALES
Resolver este problema equivale a resolver el siguiente sistema de ecua-
ciones
X
t
Xa = X
t
y. (4.1)
Este sistema admite una solucin nica si X es una matriz de rango completo,
lo cual se cumple siempre que x
i
,= x
j
.
Desde el punto de vista numrico resolver las ecuaciones normales a travs
de Gauss o Cholesky puede dar malos resultados debido a que el condi-
cionamiento de la matriz X
t
X puede ser muy grande, dado que es aproxi-
madamente cond(X)
2
. Con el n de evitar este problema se puede resolver
el sistema anterior usando la factorizacin QR de la matriz X. Si la matriz
X es de rango completo entonces existen matrices Q '
mm
ortogonal y
una matriz R
t
= [R, 0] con R '
nn
triangular superior e invertible tal que
X = QR. Al ser Q una matriz ortogonal se tiene que el problema (4.1) es
equivalente a resolver el siguiente problema de minimizacin
Min|Xay|
2
= Min|QRay|
2
= Min|Q(RaQ
t
y)|
2
= Min|RaQ
t
y|
2
lo que se reduce a resolver
Ra = Q
t
y
que admite una solucin nica dado que R es invertible. La manera ms fcil
de factorizar la matriz X de la forma QR es a travs de las transformaciones
de Householder.
4.1. Ajuste no-lineal
Supongamos que ahora nos dan una tabla de valores (t
i
, y
i
) desde i =
1, . . . , m que proviene de la solucin de una ecuacin diferencial de segundo
orden cuya solucin es de la forma
y(t) = a + be
ct
Cos(t)
y deseamos determinar los coecientes (a, b, c, ) '
4
que minimizan
m
i=1
[a + be
ct
i
Cos(t
i
) y
i
]
2
. (4.2)
Este es un problema de optimizacin sin restricciones.
4.1. AJUSTE NO-LINEAL 83
Ejemplo
Los siguientes datos son de una medicin de concentracin de glucosa en
la sangre que permite determinar si un paciente tiene o no diabetes. A partir
de estos datos se construye una funcin no lineal que modela la respuesta de
la sangre a la concentracin de glucosa. La funcin es de la forma: y(t) =
a + be
ct
Cos(t).
Un paciente en ayunas se toma un concentrado de glucosa y cada 10
minutos se le toman muestras de sangre. Los datos son los siguientes:
t
i
0 20 40 60 80 100 120 130 140 160 180 200 210
C
i
82 164 187 176 140 163 161 152 147 85 65 42 58
Graque los datos y compruebe que el tipo de funcin que debe usarse
para ajustar los datos es el propuesto.
0 50 100 150 200
t
40
60
80
100
120
140
160
180
y
Figura 4.1: Datos de una prueba de tolerancia a la glucosa.
Tratemos de determinar los parmetros de la forma usual a travs de
alguno de los mtodos numricos vistos en la seccin anterior. para poder
manipular mejor el problema: sea r
i
(a) = a + be
ct
i
Cos(t
i
) y
i
la i-sima
componente de una funcin vectorial R(a) = (r
1
(a), . . . , r
m
(a)), entonces el
problema (4.2) se puede escribir de la forma siguiente
mn R(a) = mnr
t
(a)r(a) = mn
m
i=1
r
2
i
(a).
En general este tipo de problemas se expresan por: Dada una funcin vectorial
f = (f
1
, f
2
, . . . , f
n
), determinar el mnimo de F(x) =

f
t
f.
Otro caso que nos interesa estudiar es la solucin de sistemas de ecua-
ciones no lineales. Es decir se tiene el siguiente problema: determinar x '
n
tal que

f(x) = 0. Este problema es equivalente a determinar el mnimo de la
funcin F(x) =
n
i=1
f
2
i
(x).
4.2. Condiciones de primero y segundo orden
Las condiciones de primer orden estn dadas por
F(x) = 2J
f
(x)
t
f = 0 (4.3)
con
J
f
(x) =
_
_
_
_
_
f
1
x
1
f
1
x
2
. . .
f
1
x
n
f
2
x
1
f
2
x
2
. . .
f
2
xn
. . .
fm
x
1
fm
x
2
. . .
fm
x
n
_
_
_
_
_
.
Observemos que si

f(x
) = 0 para alguna x
entonces se cumplen las condi-

ciones de primer orden por lo que se tiene un punto crtico que es global dado
que F(x
) = 0.
Para obtener las condiciones de segundo orden hay que calcular el hessiano
H
F
(x) = 2J
t
f
(x)J
f
(x) + 2D
2
f,
con
D
2
f
=
m
i=1
H
f
i
(x)f
i
= S(x).
Para garantizar la existencia de un mnimo en x
, H
F
(x
) debe ser positiva

denida. Si J
f
(x
) es de rango completo entonces J

t
f
(x
)J
f
(x
) es positiva
denida. Si adems S(x
) es positiva denida, entonces H

F
(x
) tambin lo
es. Observemos que para el caso del sistema de ecuaciones lineal en la solucin
se cumple que S(x
) = 0 por lo que H
F
(x
) es positiva denida siempre que

J
f
(x
) sea de rango completo.

4.3. MTODO DE GAUSS-NEWTON 85
4.3. Mtodo de Gauss-Newton
Denotemos por J
k
= J
f
(x
k
) y S
k
= S(x
k
)
1. Dado x
0
V
(x
).
2. Para k = 1, 2, . . .
[J
t
k
J
k
+ S
k
]
d
k
= J
t
k
f
k
x
k+1
= x
k
+

d
k
.
3. Si [[2J
t
k+1
f
k+1
[[ rtol y
||x
k+1
x
k
||
||x
k+1
||
x
k+1
k+2
.
Observemos que en el caso del sistema de ecuaciones no lineal se cumple
que F(x
k
) 0 cuando x
k
x
y en consecuencia tambin S(x

k
) 0 cuando
x
k
x
. Cerca de la solucin x
los valores que toma S son pequeos y este

trmino puede despreciarse en el mtodo de Newton. El algoritmo resultante
se conoce con el nombre de Gauss-Newton.
Algoritmo de Gauss-Newton
1. Dado x
0
V
(x
).
2. Para k = 1, 2, . . .
J
t
k
J
k
d
k
= J
t
k
f
k
(4.4)
x
k+1
= x
k
+
k
d
k
,
con F(x
k
+
k
d
k
) F(x
k
+
d
k
) '.
3. Si [[2J
t
k+1
f
k+1
[[ rtol y
||x
k+1
x
k
||
||x
k+1
||
x
k+1
k+2
.
En este caso para deteminar

d
k
se debe resolver un sistema de ecuaciones
normales cuya solucin es nica si J
k
es de rango completo. Las ecuaciones
normales pueden resolverse de la siguiente forma: primero se factoriza la
matriz J
t
k
J
k
de la forma Cholesky y despus se resuelven los correspondientes
sistemas de ecuaciones. En el caso que m sea muy grande respecto a n, no
vale la pena construir a J
k
sino escribirla en trminos de las componentes y
las derivadas parciales de

f.
(J
t
J)
ij
=
m
k=1
f
k
x
i
f
k
x
j
(J
t
f)
i
=
m
j=1
f
j
x
i
f
j
.
Lemma 4.3.1. El mtodo de Gauss-Newton es un mtodo de descenso.
Dem:
d
t
k
F
k
=

d
t
k
J
t
k
f
k
=
d
t
k
J
t
k
J
k
d
k
= |J
k
d
k
|
2
0.
La igualdad se cumple nicamente cuando F
k
= 0, dado que J
k
es de rango
completo, o sea cuando x
k
es punto crtico. As que para el resto de los puntos
se cumple que F
k+1
< F
k
.
Solucin de las ecuaciones normales
Para evitar que el sistema de ecuaciones normales est mal condicionado,
el sistema se resuelve por factorizacin QR.
J
k
= [Q
1
k
, Q
2
k
]
_
R
k
0
_
.
con Q
1
k
'
mn
, Q
2
k
'
m(mn)
y R
k
'
nn
. El sistema a resolver se reduce
a
R
k
d
k
= Q
1,t
k
f
k
.
En el caso que J
k
no sea de rango completo, el sistema (4.4) se modica
introduciendo una matriz de la forma
k
I con
k
seleccionada para que la
matriz (J
t
k
J
k
+
k
I) sea positiva denida. El problema se reduce a determinar
k
para que el sistema siguiente tenga solucin nica.
(J
t
k
J
k
+
k
I)
d
k
= J
t
k
f
k
.
El mtodo de Levenberg-Marquardt proporciona una estrategia para de-
terminar
k
basado en el enfoque de regiones de conanza: para cada ite-
racin k se resuelve el siguiente problema de minimizacin con restricciones
de desigualdad:
mn
d
|J
k
d
k
+

f|
2
sujeta a |
d
k
| h,
4.4. CASO DE RESIDUOS GRANDES 87
donde h es el radio de la regin de conanza. Las condiciones de Kuhn-Tucker
nos caracterizan la solucin de este problema: existe
k
0 tal que
(J
t
k
J
k
+
k
I)

d
k
= J
t
k
f,
k
(h |
d
k
|) = 0.
Para mayor informacin de este algoritmo consultar Nocedal et al [9].
Ejemplo
Consideremos el siguiente sistemas de ecuaciones:
f
1
(x, y) = x
3
y 1 = 0
f
2
(x, y) = x
2
y = 0
La solucin de este problema es (1.46557, 2.1479). Construyamos la funcin
F(x) =

f
t
f = F(x, y) = (x
3
y 1)
2
+(x
2
y)
2
. Si determinamos los puntos
crticos obtenemos que son tres: (1.46557, 2.1479), (0, 0.5) y (2/3, 7/54)
Los dos primeros son mnimos locales y el segundo es punto silla. Observemos
que el primero es mnimo global. Entonces no todos los mnimos locales son
solucin del sistema de ecuaciones, slo los que son globales.
Apliquemos el algoritmo de Gauss-Newton al sistema con x
0
= (1.5, 2.25).
Entonces
J
0
=
_
27
4
1
3 1
_
es de rango completo y d
0
= (0.033, 0.1), x
1
= (1.4666, 2.15) y

f
1
=
(0.0049, 0.011).
J
t
1
J
1
=
_
50.25 9.3866
9.3866 2
_
es positiva denida. d
2
= (0.001094, 0.0021), x
2
= (1.465572, 2.1479)
y
f
2
= (5.2 10
6
, 1.19 10
6
). En dos iteraciones se tiene convergencia.
4.4. Caso de residuos grandes
En el ajuste no lineal no se tienen la certeza que los residuos sean pe-
queos. Cuando son grandes signica que la funcin que se seleccion no es
la adecuada o que los datos tienen errores de medicin. En ese caso se debe
aplicar el mtodo de Newton y resolver en cada iteracin:
[J
t
k
J
k
+ S
k
]
d
k
= J
t
k
f
k
x
k+1
= x
k
+

d
k
.
Para que este paso no sea tan costoso S
k
se aproxima con una matriz B
k
donde las derivadas de segundo orden son aproximadas por diferencias nitas
como en el mtodo de Broyden-Dennis, ver Nocedal [9]. En caso que J
k
no
sea de rango completo, se usa su descomposicin en valores singulares; es
decir J
k
= V
k
D
k
U
k
y sto da lugar al mtodo de Gill-Murray.
4.5. Ejercicios
1. Use el mtodo de Gauss-Newton para ajustar los datos de la prueba de
glucosa presentada en la seccin 4.2.
2. Resuelva los siguientes sistemas de ecuaciones no lineales por medio del
mtodo de Gauss-Newton.
a)
exp x + y = 0
Cosh(y) x = 3.5
b)
3x Cos(yz) =
1
2
x
2
81(y + 0.1)
2
+ Sen(z) + 1.06 = 0
e
xy
+ 20z +
10 3
2
= 0
Tome como X
0
= (0.1, 0.1, 0.1).
Captulo 5
Optimizacin con restricciones
5.1. Introduccin
Un gran nmero de modelos de optimizacin imponen a las variables una
serie de restricciones que se traducen en el que mnimo no se busca en todo
el espacio sino en un subconjunto del espacio denido por las restricciones.
Por ejemplo consideremos los siguientes problemas:
1. Una sonda espacial en forma esfrica entra a la atmsfera de la tierra
y su supercie comienza a calentarse. Supongamos que la ecuacin de
la esfera est dada por
x
2
+ y
2
+ z
2
= 4
y que despus de diez minutos, la temperatura sobre la supercie de la
sonda es
T(x, y, z) = xz + y
2
+ 600.
Determnese el punto ms caliente sobre la supercie.
En este caso el problema se plantea de la siguiente forma: sea un
subconjunto de '
3
denido por
= (x, y, z) [ h(x, y, z) = x
2
+ y
2
+ z
2
4 = 0,
determinar
Max T(x, y, z).
x
89
90 CAPTULO 5. OPTIMIZACIN CON RESTRICCIONES
Este es un problema cuadrtico con una restriccin cuadrtica dada
por una igualdad.
2. El problema del portafolio expuesto en el captulo 1, seccin 1.2, con-
siste en determinar el portafolio con ventas en corto con mnima varian-
za y cuyo valor esperado es mayor o igual a una r
dada. La formulacin
matemtica del problema es
Min
1
2
n
i=1
n
j=1
Cov(r
i
, r
j
) w
i
w
j
sujeto a
n
i=1
w
i
r
i
= r
n
i=1
w
i
= 1.
Este es un problema cuadrtico con restricciones lineales.
La principal dicultad de los problemas de minimizacin con restricciones
reside en que no se tiene una caracterizacin de un punto mnimo que dependa
nicamente de la funcin objetivo, tambin se requiere que se satisfagan
ciertas condiciones respecto a las restricciones. A continuacin presentaremos
algunas deniciones que nos sern tiles en el manejo de las restricciones.
Puntos admisibles y regulares
Sea F una funcin de '
n
a los reales y sea un conjunto distinto del
vaco de '
n
denido por
= x '
n
[ h
j
(x) = 0 para j = 1, . . . m,
donde h
j
puede ser una funcin lineal o no lineal. Un problema de restric-
ciones de igualdad es de la forma
Min F(x).
x
En el caso lineal las restricciones son de la forma
h
j
(x) = c
j
t
x e
j
= 0.
Un problema de minimizacin con restricciones de desigualdad es un pro-
blema de minimizacin en el que se dene como
= y '
n
[ h
j
(y) = 0, j = 1, . . . , m, g
j
(y) 0, j = 1, . . . , s.
5.1. INTRODUCCIN 91
Denicin 5.1.1. Diremos que x '
n
es un punto admisible de un problema
de minimizacin con restricciones si x .
Qu se entiende por el mnimo de f restringido a un conjunto ?
Denicin 5.1.2. Un punto x
se dice que es un mnimo de F restringido

a un subconjunto ,= de '
n
si
F(x
) F(x) x .
Denicin 5.1.3. Un punto x
se dice que es un mximo de F restringido

a un subconjunto ,= de '
n
si
F(x
) F(x) x .
Denicin 5.1.4. Se dice que un punto x
es un punto extremo de F re-

stringido a si es un mnimo o un mximo de F restringido a .
Denicin 5.1.5. Sea
t
h = (h
1
(x), . . . , h
m
(x)) una funcin vectorial con-
tinuamente diferenciable, denamos como la matriz jacobiana del vector a la
matriz mn con componentes
J
h
(x) =
_
_
_
_
_
_
h
1
(x)
x
1
. . .
h
1
(x)
xn
h
2
(x)
x
1
. . .
h
2
(x)
xn
.
.
.
.
.
.
.
.
.
hm(x)
x
1
. . .
hm(x)
xn
_
_
_
_
_
_
.
La matriz jacobiana de

h tiene como rengln i al gradiente de h
i
. Esta
matriz nos dene para cada x una transformacin lineal de '
n
a '
m
. Por
ejemplo en el caso de la esfera, dado que slo tenemos una restriccin, J
h
es
una matriz de 1 3 denida por
J
h
(x) = (2x, 2y, 2z).
En el caso que sea el conjunto
= x '
n
[ h
j
(x) = c
j
t
x e
j
= 0 para j = 1, . . . m
entonces J
h
= C
t
con C
t
la matriz de mn que tiene como jsimo rengln
al vector c
t
j
.
Denotemos como N(x) al espacio nulo de la transformacin J
h
(x), es decir
N(x) = y '
n
[ J
h
(x) y = 0.
N(x) es el espacio ortogonal al espacio generado por los vectores
h
1
(x), . . . , h
m
(x).
As en el ejemplo 1, N(x) es el espacio
N(x) = (a, b, c) '
3
[ 2xa + 2yb + 2zc = 0.
En particular N(
0) = '
3
pues h
1
(
0) =
0 y en cambio
N(1, 1, 1) = (a, b, c) '
3
[2a + 2b + 2c = 0.
La dimensin de N(1, 1, 1) es 2. En el caso de tener restricciones lineales
N(x) es igual
N(x) = y '
n
[ C
t
y = 0.
Denicin 5.1.6. Diremos que x
es un punto regular de si el conjunto

de vectores
h
1
(x
), . . . , h
m
(x
)
es linealmente independiente.
Obsrvese que si m n es posible que el gradiente de todas las restric-
ciones sean linealmente independientes, pero si m > n no es posible que haya
un punto regular admisible. En el caso lineal o se tiene que todos los puntos
son regulares o ninguno lo es, pues sern regulares si la matriz C es de rango
completo o sea de rango igual a m.
5.2. Restricciones de igualdad
Sea F una funcin de '
n
a los reales y sea el conjunto distinto del vaco
de '
n
denido por
= x '
n
[ h
j
(x) = 0 para j = 1, . . . m,
5.2. RESTRICCIONES DE IGUALDAD 93
donde h
j
puede ser una funcin lineal o no lineal. Un problema de mini-
mizacin con restricciones de igualdad no lineal (P) es de la forma
Min F(x).
x
Denotemos como T(x
) el plano tangente a la supercie en el punto

x
. Recordemos que el plano tangente est formado por todos los vectores
y '
n
que son rectas tangente a una curva que pasa por x
y que est sobre

.
Teorema 5.2.1. Sea
h una funcin continuamente diferenciable en un abier-

to que contenga a . Si x
es un punto regular admisible de entonces

N(x
) = T(x
).
Dem: Probemos primero que T(x
) N(x
). Sea y T(x
) existe
una curva x(t) de ' a '
n
que pasa por x
. Supongamos que x(0) = x
y que
x

(0) = y. La derivada de

h respecto a t es cero pues x(t) est en y
0 =
d
h(x(t))
dt
[
t=0
= J
h
(x
)x

(0) = J
h
(x
)y
lo que implica que y N(x
).
Demostremos ahora que N(x
) T(x
). Sea y N(x
) entonces hay que

demostrar que existe una t
0
> 0 una curva x(t) en para t [0, t
0
] tal que
x(0) = x
y x

(0) = y. Para ello considrese la curva
x(t) = x
+yt + J
t
h
(x
) u(t) (5.1)
con u(t) un vector en '
m
. Demostrar la existencia de la curva x(t) es equi-
valente a demostrar que existe t
0
> 0 tal que para cada t [0, t
0
] existe un
nico vector u(t) para el cual

h(x(t)) = 0.
Al evaluar la curva x(t) en cero se tiene que
x(0) = x
+ J
t
h
(x
)u(0).
Como deseamos que x(0) = x
impongamos la condicin que u(0) = 0. Para

que x(t) se tiene que cumplir que
h(x
+yt + J
t
h
(x
)u(t)) = 0. (5.2)
Observemos que para cada t tenemos que determinar un vector u(t) '
m
que satisfaga el sistema de m ecuaciones con m incgnitas dado por (5.2)
Tiene solucin este sistema para toda t en el intervalo [0, t
0
], para alguna
t
0
> 0?
El teorema de la funcin implcita nos dice que esta sistema puede resol-
verse en forma nica en una vecindad de u(0) si

h(x(0)) = 0 y D
u
h es no
singular en t = 0.
D
u
h(x
+yt + J
t
h
(x
)u(t))[
t=0
= J
h
(x
) J
t
h
(x
)
es no singular pues, por hiptesis, x
es un punto regular por lo que el rango

de esta matriz es m. Por lo tanto existe una t
0
> 0 y un nico u(t) para
[t[ t
0
tal que x(t) . Adems,
0 =
d
h
dt
(x
+yt + J
t
h
(x
)u(t))[
t=0
= J
h
(x
)[y + J
t
h
(x
)u
(0)];
como y N(x
) entonces
d
h
dt
(x
+yt + J
t
h
(x
)u(t))[
t=0
= [J
h
(x
) J
t
h
(x
)]u
(0) = 0
lo que implica que u
(0) =
0 por lo que x
(0) = y. As que y T(x
).
Lemma 5.2.2. Sea F una funcin continuamente diferenciable en un abierto
que contenga a . Sea x
un punto regular de las restricciones

h(x) = 0 y
sea x
un punto extremo de F en
= x '
n
[ h
j
(x) = 0 para j = 1, . . . m,
entonces para toda y N(x
) se cumple
F
t
(x
)y = 0.
Tomemos una y N(x
), por el lema anterior, existe una curva x(t) que

satisface que x(0) = x
y x
(0) = y. Como x
es un punto extremo de F sobre

la curva x(t), al evaluar la derivada de F en x
por la regla de la cadena se

obtiene que
0 =
dF
dt
(x
) =
dF
dt
(x(t))[
t=0
= F(x
)
t
y.
Por lo tanto F(x
) es ortogonal al espacio tangente siempre que x
sea un
punto extremo de F que es punto regular de .
Condiciones de primer orden
Teorema 5.2.3. Si F y

h son funciones continuamente diferenciables en un
abierto que contenga a y x
un punto extremo, mximo o mnimo, de F

sujeto a las restricciones

h(x) = 0. Si x
es un punto regular de entonces

existe

'
m
tal que
F(x
) + J
h
(x
)
t
= 0. (5.3)
Por el lema anterior F(x
) es ortogonal a todo vector en el plano tan-

gente a la supercie y por el Lema 2.2.1 es ortogonal a todo vector y
N(x
). As que F(x
) est en el espacio generado por h

1
(x
), . . . , h
m
(x
)
y se puede escribir como una combinacin lineal de estos vectores; es decir,
existe un vector

'
m
tal que
f(x
) = J
t
h
(x
.
Observemos que, como en el caso lineal, la expresin (5.3) dene un sis-
tema de n ecuaciones con n + m incgnitas que junto a las m ecuaciones
h(x) = 0 da lugar a un sistema de n + m ecuaciones con n + m incgnitas.

Al vector

se le conoce con el nombre de multiplicador de Lagrange.
Ejemplo
Supongamos que se desea resolver el problema presentado en el ejemplo
1 de la seccin 2.1:
Max T(x, y, z),
x
donde T(x, y, z) = xz + y
2
+ 600 y
= (x, y, z) [ h(x, y, z) = x
2
+ y
2
+ z
2
4 = 0
.
Para que (x, y, z) sea el mximo de T restringido a debe existir '
tal que
T(x, y, z) + h(x, y, z) = (z, 2y, x) + (2x, 2y, 2z) = 0.
Estas ecuaciones junto con la restriccin dan lugar al siguiente sistema de
ecuaciones no-lineales
z + 2x = 0,
2y + 2y = 0,
x + 2z = 0,
x
2
+ y
2
+ z
2
= 4.
Este sistema tiene cinco soluciones (x, y, z, ): (
2, 0,
2,
1
2
), (
2, 0,
2,
1
2
),
(
2, 0,
2,
1
2
), (
2, 0,
2,
1
2
), (0, 2, 0, 1). Observemos que todos los
puntos son puntos regulares de ya que h(x) en estos puntos es distinto
de

0.
En cul de estos puntos la temperatura es mayor? La respuesta se ob-
tiene el evaluar T en cada una de las soluciones y seleccionar aquella en el
que alcanza el valor ms grande. Observemos que T(0, 2, 0) = 604
y que
en estos puntos alcanza su valor mximo, mientras que en (
2, 0,
2) y
(
2, 0,
2) alcanza su valor mnimo que es 598
. Otro procedimiento se
obtendr ms adelante con las condiciones de segundo orden.
Condiciones de segundo orden
En esta seccin supondremos que F y

h son funciones dos veces continu-
amente diferenciables en un abierto que contenga a .
Teorema 5.2.4. Supongamos que x
es un mnimo del problema (P) y que

x
es un punto regular de entonces existe un vector

'
m
tal que
F(x
) + J
t
h
(x
= 0.
Si N(x
) = y '
n
[J
h
(x
)y = 0 entonces la matriz
L(x
) = H
F
(x
) +
m
i=1
i
H
h
i
(x
)
es positiva semidenida en N(x
), es decir y
t
L(x
)y 0 para toda y N(x
).
Dem: La primera parte se demuestra por el Teorema 2.2.3. Para demostrar
la segunda parte, considrese a x(t) una curva que pasa por x
en t = 0 con
vector tangente y N(x
) y que satisface x

(0) = y entonces F restringido
a esta curva es una funcin de variable real. Como x
es un mnimo de F se
cumple que
d
2
F(x(t))
dt
2
[
t=0
0,
lo que implica que
x

(0)
t
H
F
(x
)x

(0) +F(x
)x
(0) 0. (5.4)
Por otro lado, como la curva x(t) est sobre , se tiene que para toda
restriccin h
i
i
h
i
(x(t)) = 0.
Al derivar dos veces la expresin anterior y al evaluarla en t = 0 se tiene que
x
t
(0)
i
H
h
i
(x
)x

(0) +h
i
(x
)
i
x

(0) = 0.
Sumando respecto a i
x
t
(0)
m
i=1
i
H
h
i
(x
)x

(0) + J
t
h
(x
x

(0) = 0. (5.5)
Recordemos que por el Teorema 2.2.3
F(x
) = J
t
h
(x
y sumando (5.4) y (5.5) se tiene que

x
t
(0)[H
F
(x
) +
m
i=1
H
h
i
(x
)
i
]x
(0) 0
para toda y N(x
). Lo que implica que L(x
) es una matriz semidenida

positiva en N(x
).
Teorema 5.2.5. Supngase que hay un punto x
en y una

'
m
tal que
F(x
) + J
t
h
(x
= 0. (5.6)
Supngase tambin que la matriz
L(x
) = H
F
(x
) +
m
i=1
H
h
i
(x
)
i
es positiva denida en
N(x
) = y '
n
[J
h
(x
)y = 0
x
es un mnimo estricto de F en .
Supongamos que x
no es un mnimo estricto de F en , entonces existe

y tal que F(y) F(x
). An ms existe una sucesin y

k
que con-
verge a x
y tal que F(y

k
) F(x
). De esta ltima armacin se desprende

que si al menos hay un punto y en el que F alcanza un valor menor que en
x
, como F es continua debe entonces tomar todos los valores entre F(y) y
F(x
) en puntos y
k
en . Esta sucesin es de la forma
y
k
= x
+
k
s
k
con vectores s
k
en la bola unitaria de '
n
y
k
> 0. Claramente
k
0 cuando
k tiende a innito y adems como s
k
es una sucesin acotada debe tener una
subsucesin convergente a un elemento s
'
n
. Adems
lm
k
h(y
k
)
h(x
k
= 0
lo que implica que
J
h
(x
)s
= 0,
por lo que s
N(x
).
Aplicando la serie de Taylor a h
i
alrededor de x
se tiene
0 = h
i
(y
k
) = h
i
(x
) +
k
h
t
i
(x
)s
k
+

2
k
2
s
t
k
H
h
i
(
i
)s
k
.
Multiplicando por
i
y sumando de i = 1 hasta m se tiene que
0 =
m
i=1
i
h
i
(y
k
) =
m
i=1
i
(h
i
(x
) +
k
h
t
i
(x
)s
k
+

2
k
2
s
t
k
H
h
i
(
i
)s
k
). (5.7)
Por otro lado, se tiene que
F(y
k
) = F(x
) +
k
F
t
(x
)s
k
+

2
k
2
s
t
k
H
F
(
k
)s
k
y sumando esta igualdad con (5.7) se obtiene que
F(y
k
) = F(x
) +
k
[F
t
(x
) +
m
i=1
i
h
i
(x
)]s
k
+

2
k
2
s
t
k
[H
F
(
k
) +
i
H
h
i
(
i
)]s
k
.
Dado que F(y
k
) F(x
) 0 y que (5.6) se cumple entonces

0

2
k
2
s
t
k
[H
F
(
k
) +
i
H
h
i
(
i
)]s
k
para cada k, por lo que al pasar al lmite se contradice la hiptesis que la
matriz L sea denida positiva en N(x
).
Los puntos mximos de F restringidos a un conjunto pueden caracteri-
zarse de una manera similar a los puntos mnimos. La condicin de primer
orden es la misma que (5.6) lo que diere es que la matriz L debe ser una
matriz negativa denida en N(x
).
Ejemplos
1. Retomemos el ejemplo de la sonda de forma esfrica con ecuacin x
2
+
y
2
+z
2
4 = 0 y cuya temperatura est dada por la funcin T(x, y, z) =
xz+y
2
+600. Los puntos (x, y, z): (
2, 0,
2), (
2, 0,
2), (
2, 0,
2),
(
2, 0,
2) y (0, 2, 0, 1) son candidatos a ser puntos extremos de

T en la esfera dado que satisfacen las condiciones de primer orden. En
cules de ellos alcanza el valor mnimo o mximo T? Para responder
calculemos la matriz L, observemos que como T y h son cuadrticas,
L nicamente depende de
L() =
_
_
2 0 1
0 2 + 2 0
1 0 2
_
_
.
En el caso de los primeros dos puntos que tienen como multiplicador
de Lagrange a =
1
2
, L es de la forma
L(
1
2
) =
_
_
1 0 1
0 1 0
1 0 1
_
_
.
El espacio tangente correspondiente est denido por
N(
2, 0,
2) = y = (a, b, c) [ 2
2a + 2
2c = 0.
Entonces
y
t
L(
1
2
)y = b
2
4a
2
que es una matriz indenida en N(
2, 0,
2) por lo que no se alcanza

en este punto ni el valor mximo ni el mnimo. A la misma conclusin
se llega cuando se hacen los clculos respectivos para (
2, 0,
2).
Cuando =
1
2
se tiene
L(1/2) =
_
_
1 0 1
0 3 0
1 0 1
_
_
.
El plano tangente a la sonda en el punto (
2, 0,
2) es de la forma
N(
2, 0,
2) = y = (a, b, c)[2
2a 2
2c = 0
por lo que y
t
L(1/2)y = 4a
2
+ 3b
2
0 y la matriz L(1/2) es positiva
denida en N(
2, 0,
2) y alcanza en ese punto un valor mnimo. Un

razonamiento similar nos permite comprobar que tambin (
2, 0,
2)
es un mnimo de T en la esfera.
Para el caso de (0, 2, 0) que tienen multiplicador de Lagrange a =
1, L es de la forma
L(1) =
_
_
2 0 1
0 0 0
1 0 2
_
_
.
N(0, 2, 0) = y = (a, b, c) '
3
[b = 0 y
y
t
L(1)y = 2a
2
+ 2ac 2c
2
(a
2
+ c
2
) 0.
As que la matriz L(1) es negativa denida en N(0, 2, 0) y N(0, 2, 0),
aplicando las condiciones de segundo orden se concluye que T alcanza su
valor mximo en estos puntos. Observe que estas conclusiones coinciden
con las que se haban obtenido al evaluar T.
2. Caso Cuadrtico
Sea F(x) una funcin cuadrtica de la forma
F(x) =
1
2
x
t
Ax x
t
b
y sea
= x '
n
[ C
t
x = e,
con C una matriz de n m. Determinar bajo qu condiciones el pro-
blema
Min F(x)
x
admite una solucin nica.
Observemos que en este caso todos los puntos son regulares o ninguno
lo es porque J
h
= C
t
y slo si el rango de C es completo el punto ser
regular. Supongamos que este es el caso, entonces un candidato a ser
punto extremo de F en debe satisfacer que
Ax + C
=

b, (5.8)
C
t
x = e. (5.9)
Lemma 5.2.6. El sistema (5.8) admite una solucin nica si A es una
matriz positiva denida y C es una matriz de rango completo.
Para demostrar que la matriz
_
A C
C
t
0
_
es una matriz no singular basta con demostrar que el sistema homog-
neo asociado a (5.8) tiene como nica solucin a x =
0 y

=
0.
La primera ecuacin del sistema anterior nos dice que
Ax + C
0.
Multiplicando por x
t
y usando que C
t
x =
0 se tiene que
x
t
Ax +x
t
C
= x
t
Ax = 0
como A es una matriz positiva denida, slo se cumple la igualdad a
cero si x =
0. Por otro lado,

C
= 0
por lo que al mutiplicar por C
t
se tiene que C
t
C es una matriz no
singular dado que C es una matriz de rango completo, por lo que la
nica solucin es

=
0.
La solucin del sistema (5.8) se puede reducir a resolver el siguiente
sistema de ecuaciones :
C
t
A
1
C
= C
t
A
1
b e
Ax = C
b.
Esta forma de resolver el sistema no es la ms eciente pues requiere
del clculo de la inversa de A. En la prctica se usa la factorizacin QR
de la matriz C. Sistemas como el (5.8) aparecen en muchas aplicaciones
como la dicretizacin de las ecuaciones de Navier-Stokes en mecnica
de uidos. Por ello ha recibido mucha atencin de los especialistas.
3. El problema del portafolio se puede escribir en forma matricial. Sea []
la matriz de n n cuyas componentes son iguales a
[]
ij
= Cov(r
i
, r
j
)
a esta matriz se le conoce con el nombre de matriz de varianza-covarianza
y siempre es positiva semidenida. Denotemos como

1 al vector con
componentes igual a 1 y

r el vector con componente i igual a r
i
la
media muestral de los rendimientos del activo i. Entonces el problema
de minimizacin es
Min
1
2
w
t
[] w
sujeto a

r
t
w = r
1
t
w = 1.
Aplicando las condiciones de primer orden obtenemos el siguiente sis-
tema de ecuaciones lineales
[] w +
1
r +
2
1 = 0,
r
t
w = r
1
t
w = 1.
5.3. CASO DE RESTRICCIONES DE DESIGUALDAD 103
Este sistema admite solucin si la matriz [] de varianza-covarianza es
positiva denida y
r y
1 son linealmente independientes. Esto ltimo se

satisface si los rendimientos histricos promedio de todos los activos no
son iguales. Observe que esta condicin garantiza que todos los puntos
de son regulares, con
= w '
n
[
1
t
w = 1,

r
t
w = r
.
La solucin w
est dada por

[] w
=
1
r
2
1
con
1
=
B r

2
=
r
B C
,
y
A =
1
t
[]
1
1 , B =
1
t
[]
1
r ,
C =

r
t
[]
1
r , = AC B
2
.
Esta es la manera formal de calcular el sistema pues nunca se resuelve
un sistema invirtiendo una matriz. Ver los problemas de este captulo
para aprender a resolver este sistema de una manera ms eciente.
Observemos que si la matriz L = H
F
= [] es una matriz positiva
denida en todo el espacio, tambin lo es en N( w
).
5.3. Caso de restricciones de desigualdad
Cuando est denido por restricciones de desigualdad e igualdad se
trata el problema reducindolo al caso de restricciones de igualdad a travs
del concepto de restricciones activas y pasivas. Sea
= x '
n
[h
j
(x) 0, j = 1, . . . , m.
Denicin 5.3.1. Dado x se dice que h
j
(x) es una restriccin activa
en x si h
j
(x) = 0 y se dice que es pasiva si h
j
(x) < 0.
Ejemplo 1
Consideremos el siguiente problema
Min F(x, y) = (x 3)
2
+ (y 3)
2
,
sujeto a h
1
(x, y) = x
2
+ y
2
5 0,
h
2
(x, y) = 3x + y 5 0.
2 1 1 2 3
x
5
10
y
Figura 5.1: Regin factible .
En la Figura 5.1 se presenta el conjunto que es la parte del crculo que
esta por debajo de la recta, incluyendo la recta. Como se observa para todos
los puntos en el interior de ninguna de las dos restricciones es activa. En el
caso que estemos sobre la recta 3x+y = 5 la restriccin h
2
es activa mientras
que h
1
no lo es, salvo para el caso de los puntos (1, 2), y (2, 1) donde h
2
es
tambin activa. Los puntos sobre la curva x
2
+ y
2
= 5 que estn por debajo
de la recta 3x + y = 5 tiene a h
2
como restriccin activa.
Al gracar la regin admisible junto con las curvas de nivel de F, ver la
Figura 5.3, observamos que el mnimo debe encontrarse en los puntos cercanos
a la interseccin en el primer cuadrante de la recta con la circunferencia. Los
puntos donde se intersectan la circunferencia y la recta son (1, 2) y (2, 1) y
1 0 1 2 3
1
0
1
2
3
Figura 5.2: Regin factible y las curvas de nivel de F.
el primero es el mnimo de F restringido a ya que est sobre la curva de
nivel en donde F toma el valor ms pequeo.
En general
= y '
n
[ h
j
(y) = 0, j = 1, . . . , m, f
j
(y) 0, j = 1, . . . , s (5.10)
y las funciones h
j
y f
j
son funciones de '
n
a '.
Denotemos como I(x) a los ndices asociados a las restricciones activas
en x, en el caso de restricciones de desigualdad, el espacio N(x) se dene de
la siguiente forma
N(x) = y '
n
[
t
h
j
(x)y = 0 j = 1, . . . , m y
t
f
j
(x)y = 0 j I(x).
Asimismo, diremos en este caso que x es un punto regular de si el
conjunto de vectores formados por los gradientes de las restricciones activas
son linealmente independientes.
Para el ejemplo anterior N(0, 0) = porque ese punto es un punto interior
de . Pero
N(1, 2) = y = (a, b) '
2
[ 3a + b = 0; 2a + 4b = 0 = (0, 0).
y
N(0,
5) = y = (a, b) '
2
[b = 0.
Condiciones de Kuhn y Tucker para el caso no lineal
Considrese el problema
Min F(x)
x
con ,= denido por
= y '
n
[ h
j
(y) 0,
con F, h
j
: '
n
' continuamente diferenciables en un abierto que contenga
a .
Teorema 5.3.2. Si x
es un punto mnimo de F restringido a y si x
es
un punto regular de entonces existe '
s
con
j
0 para j = 1, . . . s tal
que
F(x
) +
s
j=1
j
h
j
(x
) = 0 (5.11)
y
j
[h
j
(x
)] = 0 j = 1, . . . , s. (5.12)
Dem: Sea
S = x [ h
j
(x) = 0 para j I(x
)
y x
es el mnimo de F en . Como S , x
tambin es un mnimo de F
restringido a S; dado que las restricciones que denen a S son restricciones
de igualdad, en x
se deben satisfacer las condiciones de primer orden vistas

en la seccin anterior, por lo que existen
j
para j I(x
) tal que
F(x
) +
iI(x
i
h
i
(x
) = 0.
Si seleccionamos
i
= 0 para i no estando en I(x
) entonces se obtienen las

condiciones de Kuhn y Tucker
F(x
) +
m
i=1
i
h
i
(x
) = 0
y adems se cumple que
i
h
i
(x) = 0 i = 1, . . . , m.
Falta por demostrar que las
i
asociadas a las restricciones activas de x
son
no negativas. Esto lo haremos por reduccin al absurdo: supongamos que
existe una
k
< 0 para alguna k I(x
). Sea S
k
la supercie denida por
todas las restricciones activas salvo la k-sima restriccin y sea

N
k
(x
) el
espacio tangente asociado a S
k
en el punto x
. Como x
es un punto regular
existe una y '
n
tal que y

N
k
(x
) y que satisface que h

t
k
(x
)y < 0.
Recordemos que si y

N
k
(x
) existe una curva x(t) que satisface que x(0) =

x
, x
(0) = y y para alguna > 0, x(t) S

k
para t < 0, >. Entonces
dF(x(t))
dt
[
t=0
= F
t
(x
)y =
k
h
t
k
(x
)y < 0
y es una direccin de descenso lo que contradice que x
sea el mnimo.
A continuacin se presentan las condiciones de segundo orden cuya de-
mostracin es similar al caso de igualdad.
Teorema 5.3.3. Supongamos que x
es un mnimo del problema (P) y que

x
es un punto regular de entonces existe un vector '

s
tal que
j
0
y
F(x
) + J
t
h
(x
= 0.
Si N(x
) = y '
m
[
h
t
(x
)y = 0 j I(x
) entonces la matriz
L(x
) = F(x
) +
s
i=1
i
H
h
i
(x
)
es positiva semidenida en N(x
).
Teorema 5.3.4. (Condiciones sucientes) Supngase que hay un punto x
en y una '
s
tal que
F(x
) +
s
j=1
j
h
j
(x
) = 0. (5.13)
Supngase tambin que la matriz
L(x
) = H
F
(x
) +
s
i=1
H
h
i
(x
)
i
es positiva denida en
N(x
) = y '
n
[
t
h
j
(x
)y = 0 j I(x
).
x
La demostracin de estos teoremas es similar al caso de restricciones de
igualdad.
Ejemplos
1. Consideremos el siguiente problema
Min F(x, y) = (x 3)
2
+ (y 3)
2
,
sujeto a h
1
(x, y) = x
2
+ y
2
5 0,
h
2
(x, y) = 3x + y 5 0.
El gradiente de F es igual a F(x, y) = (2(x3), 2(y3)). Supongamos
que h
1
y que h
2
no son activas entonces el punto x
1
que hace al gradiente
cero es (3, 3), punto que no es admisible. Por lo tanto alguna de las
restricciones debe ser activa. Supongamos que h
1
es activa entonces el
sistema a resolver es
2(x 3) + 2x
1
= 0,
2(y 3) + 2y
1
= 0,
x
2
+ y
2
= 5.
La solucin del sistema es (
_
5/2,
_
5/2) es la solucin con
1
= 0.8973.
Este punto no est en por lo que no es un punto admisible. Supong-
amos que h
2
es activa y h
1
es pasiva entonces
t
h
2
(x, y) = (3, 1).
Entonces el sistema de ecuaciones a resolver es
2(x 3) + 3
2
= 0,
2(y 3) +
2
= 0,
3x + y = 5.
La solucin del sistema es (9/10, 23/10) con
2
=
7
5
. Este punto tam-
poco es admisible.
Supongamos ahora que h
1
y h
2
son activas, entonces el sistema corre-
spondiente a resolver es
2(x 3) + 2x
1
+ 3
2
= 0,
2(y 3) + 2y
1
+
2
= 0,
3x + y = 5,
x
2
+ y
2
= 5.
Los nicos puntos que tienen estas restricciones activas son (1, 2) y
(2, 1). Determinemos el valor de los multiplicadores de Lagrange aso-
ciados a (1, 2) son
1
= 1/5 y
2
= 6/5, mientras que para (2, 1) son
1
= 22/10 y
2
= 18/5. Entonces (1, 2) es candidato a ser el mnimo
por ser el nico punto que satisface las condiciones de Kuhn-Tucker
(KT). La matriz L respectiva es
L(1, 2) =
_
2 + 2
1
0
0 2 + 2
1
_
.
Dado que
1
= 1/5 esta matriz es positiva denida para cualquier vec-
tor de '
2
distinto de cero por lo que (1, 2) es el mnimo de F restringido
a .
2. El problema de optimizacin de portafolios sin ventas en corto es un
problema de optimizacin cuadrtica con desigualdades lineales. En
este caso las condiciones KT correspondientes son: existen , ' y
i
0, con i = 1, . . . , n tal que
w +
r +
1
n
i=1
i

e
i
= 0, (5.14)
w
t
r = r
, (5.15)
1
t
w = 1, (5.16)
i
w
i
= 0, i = 1, . . . , n (5.17)
con

e
i
el i-simo vector de la base cannica de '
n
.
Si denotamos como w
el punto admisible que satisface las condiciones

de KT entonces las condiciones de segundo orden para que este punto
sea un mnimo de la funcin objetivo en estn dadas por
y
t
[]y > 0
para toda y N(w
) con y ,= 0. Si [] es positiva denida en todo '

n
tambin lo es en N(w
) '
n
.
El algoritmo a seguir en este caso es clasicar todos los puntos de
=
_
_
_
w '
n
[ h
1
( w) = w
t
r r
= 0,
h
2
( w) =
1
t
w 1 = 0,
h
i+2
( w) = w
i
0, i = 1, . . . , n
_
_
_
dependiendo de si las restricciones h
i
son activas o pasivas. Es decir h
i
es activa si w
i
= 0 y es pasiva si w
i
> 0. Para cada subconjunto hay
que comprobar si en algn punto se satisfacen las condiciones de Kuhn
y Tucker.
Consideremos el ejemplo anterior cuando se tienen tres activos no co-
rrelacionados, el problema a minimizar es el siguiente
Min
1
2
[0.2w
2
1
+ 0.18w
2
2
+ 0.15w
2
3
]
sujeto a 0.2w
1
+ 0.25w
2
+ 0.15w
3
= r
3
i=1
w
i
= 1,
w
i
0, i = 1, . . . , 3.
Como primer paso clasiquemos los puntos de dependiendo de que
las restricciones h
i
(w) = w
i
sean pasivas o activas. Para ello, denamos
el conjunto
= w '
n
[w
t
r = r
, w
t
1 = 1.
Entonces los puntos admisibles se pueden clasicar en los siguientes
conjuntos
S
1
= w

[w
i
> 0, i = 1, . . . , 3,
S
2
= w

[w
1
= 0,
S
3
= w

[w
2
= 0,
S
4
= w

[w
3
= 0,
S
5
= w

[w
1
= w
2
= 0 = (0, 0, 1),
S
6
= w

[w
1
= w
3
= 0 = (0, 1, 0),
S
7
= w

[w
2
= w
3
= 0 = (1, 0, 0).
Observemos que en S
5
, S
6
y S
7
ningn punto es regular, por haber ms
restricciones que incgnitas, por lo que no se cumplen las condiciones
de KT. Analicemos si existe algn punto w de S
1
que satisfaga las
condiciones de KT correspondientes: existen y ', tal que
w +
r +
1 = 0, (5.18)
w
t
r = r
, (5.19)

1
t
w = 1. (5.20)
Al resolver este sistema en trminos de r
obtenemos que si
r
[0.163636, 0.234483] entonces

w
1
= 0.53097345r
+ 0.18584071,
w
2
= 9.73451327r
1.59292035,
w
3
= 2.40707965 10.2654867r
.
Para S
3
se cumplen las condiciones de KT para
w
1
= 20r
3, w
2
= 0 y w
3
= 4 20r
,
siempre que r
[.15, .163636].
Para S
4
se cumplen las condiciones de KT para
w
1
= 5 20r
, w
2
= 20r
4 y w
3
= 0.
si r
[0.234482, 0.25].
3. Consideremos el caso de que la funcin objetivo sea una funcin no
lineal con restricciones no lineales. Consideremos el problema
Min e
(x+y)
sujeto a e
x
+ e
y
20,
x 0.
En este caso el conjunto admisible es
= (x, y) '
2
[ h
1
(x, y) = e
x
+ e
y
20 0; h
2
(x, y) = x 0.
0.5 1 1.5 2 2.5 3
x
-3
-2
-1
1
2
3
4
y
Figura 5.3: Regin factible con las curvas de nivel de F.
En la Figura 5.3 se presenta la solucin grca de este problema. Ob-
servemos que el punto x de que esta en la curva de nivel de menor
valor es aquel que satisface h
1
(x) = 0.
Clasiquemos los puntos dependiendo de si las restricciones son activas
o pasivas.
S
1
= (x, y) [ h
1
(x, y) = e
x
+ e
y
20 = 0; h
2
(x, y) = x < 0,
S
2
= (x, y) [ h
1
(x, y) < 0; h
2
(x, y) = x = 0,
S
3
= (0, y) [ h
1
(x, y) = 0 = (0, ln(19).
5.4. EJERCICIOS 113
Chequemos para cada subconjunto si se cumplen las condiciones de
Kuhn-Tucker en algn punto. Un punto es regular en S
1
si (e
x
, e
y
)
es linealmente independiente, lo cual se cumple para todo (x, y) S
1
.
Las condiciones de Kuhn-Tucker correspondientes son:
F(x, y) +
1
h
1
(x, y) = (0, 0),
h
1
(x, y) = 0.
Esto se reduce a resolver el siguiente sistema de ecuaciones no-lineal
e
x
+
1
e
2y
= 0,
e
y
+
1
e
2x
= 0,
e
x
+ e
y
= 20.
cuya solucin es x = y = 1/3 ln(
1
) con
1
= .001;
1
es mayor que
cero y x = ln(10) = y es un punto admisible de S
1
. Calculemos la
matriz L
L(x,
1
) = H
F
(x) +
1
H
h
1
(x)
lo que es igual a
L(x,
1
) =
_
e
(x+y)
+
1
e
x
e
(x+y)
e
(x+y)
e
(x+y)
+
1
e
y
.
_
Al evaluar la matriz anterior en (ln(10), ln(10), .001) obtenemos una
matriz positiva denida en '
2
por lo que este punto es el mnimo de
F restringido a . F(ln(10), ln(10)) = .01. Cheque el lector que las
condiciones de Kuhn-Tucker no se cumplen en ningn punto de S
2
y
S
3
.
5.4. Ejercicios
1. Formule y resuelva analticamente el siguiente problema. El Sol de Mri-
da fue recientemente adquirido por Televisa. Este se vende a $2.00 el
ejemplar y tiene una circulacin diaria de 20,000 nmeros. Por cuestin
de venta de anuncios gana $1, 000 por pgina y el peridico vende 15
pginas diarias. La nueva administracin desea incrementar sus ganan-
cias y desea reducir sus gastos semanales. El peridico gasta $60, 000
en su departamento editorial (escritores, reporteros, fotgrafos,etc),
$20, 000 en su departamento de publicidad y suscripciones y $50, 000
de gastos jos a la semana. Si se reduce el presupuesto del departamen-
to editorial se ahorrara dinero, pero afectara la calidad del peridico.
El mnimo presupuesto con el que puede funcionar este departamento
es de $40, 000. Estudios demuestran que por cada 10 % de reduccin
de presupuesto de este departamento se pierde un 2 % de suscriptores
y uno por ciento por venta de anuncios. Recientemente, otro peridi-
co, increment su presupuesto del departamento de publicidad en un
20 % y como consecuencia se increment en un 15 % el nmero de pgi-
nas de anuncios vendidas. Los nuevos dueos del Sol de Mrida estn
dispuestos a gastar hasta $40, 000 en su departamento de publicidad,
Qu estrategia hay que seguir para maximizar las ganacias dado que el
monto total de gastos no puede exceder los $140, 000 pesos a la semana?
2. Una compaa planea fabricar cajas rectangulares cerradas con un vo-
lumen de 8lt. El material para la base y la tapa cuesta el doble que el
material para los lados. Encuentre las dimensiones para las cuales el
costo es mnimo.
3. El cono z
2
= x
2
+y
2
est cortado por el plano z = 1 +x +y. Hllense
los puntos sobre esta seccin ms prximos al origen.
4. Se trata de montar un radiotelescopio en un planeta recien descubier-
to. Para minimizar la interferencia se desea emplazarlo donde el campo
magntico sea ms dbil. Supongamos que se modela el planeta usando
una esfera con un radio de 6 unidades. Se sabe que la fuerza magntica
esta dada por G(x, y, z) = 6x y
2
+xz + 60, considerando un sistema
coordinado cuyo origen est en el centro del planeta. Dnde hay que
ubicar al radiotelescopio?
5. Dados n nmeros positivos a
1
, a
2
, . . . , a
n
, hllese el valor mximo de la
expresin
w(x) =
n
i=1
a
i
x
i
si
n
i=1
x
2
i
= 1.
6. Sea A '
nn
una matriz positiva denida. Sea B '
nm
con m < n
una matriz de rango completo entonces el sistema
B
t
A
1
B = c
5.4. EJERCICIOS 115
con '
m
admite una solucin nica.
7. Resuelva analticamente el siguiente problema
Min x
2
xy + y
2
3x
sujeto a x, y 0
x + y 1.
Bosqueje el conjunto admisible.
8. Resuelva analticamente
Min x
3
1
+ x
2
2
sujeto a x
2
1
+ x
2
2
10 = 0,
1 x
1
0,
1 x
2
0,
Graque la regin admisible.
9. Se tiene un portafolio con tres activos con los siguientes datos
A
1
A
2
A
3
r
i
.4 .8 .8
2
i
.2 .25 .2
ij

12
=.1
13
=0.1
23
= 0.05
determine la composicin del portafolio que minimiza el riesgo, con
rendimiento esperado igual a r
, determine los posibles valores que

puede tomar r
, con y sin ventas en corto, si la suma de las w

i
debe ser
igual a 1.
10. Sea
Min F(x)
sujeto a g
i
(x) 0 i = 1, . . . m.
se dice que este problema es de programacin convexa si F, h
i
: C
'
n
con C conjunto convexo y F, h
i
, para i = 1, . . . m son convexas.
Demuestre que el siguiente problema es un problema de programacin
convexa y que (0, 0) es la nica solucin.
Min x
4
+ y
4
sujeto a: x
2
1 0
y
2
1 0
e
x+y
1 0, (x, y) '
2
.
11. Determine la solucin del siguiente problema y demuestre tambin que
es un problema de programacin convexa: Minimice F(x, y) = 2x
2
+y
2
2xy5x2y sujeto a h
1
(x, y) = 3x+2y 20, h
2
(x, y) = 5x2y 4,
y x, y 0.
12. (Factorizacin QR)
Dada una matriz A de n m de rango m con m n exite una matriz
Q de n n ortogonal, es decir Q
t
= Q
1
, y una matriz R de n m
triangular superior en los primeros m renglones y con elementos igual
a cero en todos los n m restantes renglones tal que
A = QR.
Una forma de construir las matrices Q y R es a travs de las transfor-
maciones de Householder. Dada una matriz A con columnas formadas
por los vectores

A
1
, . . . ,

A
m
de dimensin n la matriz P
1
de la forma
P
1
= I
2
v
t
1
v
1
v
1
v
t
1
,
con v
1
=

A
1
+ sign(A
11
)
1
e
1
y
1
=
n
i=1
A
2
i1
1/2
.
Entonces
P
1
A =
_
_
_
_
A
1
11
. . . A
1
1m
0 A
1
22
. . . A
1
2m
. . . . . . . . .
0 . . . A
1
nm
_
_
_
_
.
Para cualquier columna i > 1, la matriz P
i
es igual a
P
i
= I
2
v
t
i
v
i
v
i
v
t
i
,
5.4. EJERCICIOS 117
con v
i
= (0, . . . , A
i1
ii
+sign(A
i1
ii
)
i
, A
i1
i+1i
, . . . , A
i1
in
) y
i
=
n
j=i
(A
i1
ji
)
2
1/2
.
Entonces
Q
t
A = P
n
P
n1
. . . P
1
A = R
y R es una matriz con las caractersticas deseadas.
Aplique el siguiente procedimiento para factorizar las matrices
A =
_
2 1 1 4
0 1 2 1
_
,
B =
_
_
_
_
1 2 3
0 1 2
0 0 1
1 0 0
_
_
_
_
.
13. Sea A una matriz que satisface las hiptesis del ejercicio anterior, si
Q es la matriz ortogonal de n n que aparece en su factorizacin QR
entonces si Q se descompone de la forma
Q = [Q
1
[Q
2
]
con Q
1
una matriz de nm y Q
2
una matriz de n(nm), las columnas
de Q
2
generan el espacio N(A). Entonces para cualquier vector z
'
nm
, Q
2
z N(A). Usando lo anterior se puede aplicar la factorizacin
de Cholesky para demostrar que una matriz G es positiva denida en
N(A), basta aplicarlo a la matriz
t
Q
2
G Q
2
. Demostrar que
cond(Q
t
2
G Q
2
) cond(G)
y aplicar este procedimiento para demostrar si el problema
Min x
3
1
+ x
2
2
sujeto a :1 x
1
= 0.
admite un mnimo.
14. Demostrar que la matriz de proyeccin al Nucleo de A: P
N(A)
puede
denirse en trminos de las matriz Q
2
como
P
N(A)
= Q
2
(Q
t
2
Q
2
)
1
Q
t
2
,
entonces la matriz de proyeccin al R(A
t
) est dada por
P
R(A
t
)
= I Q
2
(Q
t
2
Q
2
)
1
Q
t
2
.
Captulo 6
Mtodo de Newton para
problemas con restricciones
En este captulo se ver el mtodo de gradiente proyectado para resolver
numricamente los problemas con restricciones de igualdad y desigualdad
cuando las restricciones son lineales. En la primera seccin se aplicarn para
el caso de restricciones de igualdad. En la segunda seccin cuando se tienen
restricciones de desigualdad y en la ltima seccin se presenta el Mtodo de
Wolfe. Cabe mencionar que hay numerosos mtodos de aproximacin que
buscan sacar provecho de las caractersticas de la funcin objetivo y de las
restricciones. Hay mtodos especcos para funciones convexas denidas en
conjuntos convexos o funciones cuadrticas con restricciones lineales. Como
en el caso sin restricciones, el tipo de mtodos que se presentan son de descen-
so, pero con la diferencia que los elementos de la sucesin deben satisfacer
las restricciones.
6.1. Mtodo de Newton
Consideremos que tenemos el siguiente problema
mn
x
F(x),
con un subconjunto distinto del vaco de '
n
. Supongamos que el problema
admite una solucin.
Los mtodos de descenso para resolver estos problema consisten en lo
siguiente:
119
120CAPTULO6. MTODODE NEWTONPARAPROBLEMAS CONRESTRICCIONES
dado x
0
,
se genera x
n+1
tal que
x
n+1
= x
n
+
n
d
n
,
con F(x
n
+
n
d
n
) F(x
n
).
6.1.1. Caso de restricciones lineales de igualdad
Consideremos el caso que F sea una funcin dos veces continuamente
diferenciable en un abierto que contenga a y que sea de la forma
= x '
n
[A
t
x = e,
con A una matriz en '
nm
, con m n, de rango completo.
Punto inicial
El primer problema que surge es cmo seleccionar un punto admisible.
La forma ms eciente es usar la factorizacin QR de la matriz A. Si A
'
nm
es una matriz de rango completo igual a m entonces existe una matriz
ortogonal Q '
nn
y una matriz

R '
nm
, con transpuesta igual a [R
t
, 0]
y R '
mm
triangular superior, tal que A = Q
R.
Observemos que Q = [Q
1
, Q
2
] con Q
1
'
nm
y Q
2
'
nnm
tal que
Q
t
1
A = R y Q
t
2
A = 0. Entonces resolver el sistema A
t
x = e es equivalente a
resolver primero
R
t
z = e
y posteriormente a determinar x por
x = Q
1
z.
El primer sistema tiene solucin nica porque R es una matriz invertible.
Direcciones admisibles
Dado x
0
, cmo garantizamos que el punto x
1
= x
0
+
d
0
tambin
est en ?
A
t
(x
0
+
d
0
) = A
t
x
0
+ A
t
d
0
= e + A
t
d
0
y x
1
siempre que A
t
d
0
= 0 que

d
0
EN(A
t
) con
EN(A
t
) = y '
n
[A
t
y = 0.
Si la dimensin de EC(A) = m < n se tiene que todos los puntos de
son regulares y la dimensin de EN(A
t
) =dim EC(A)
= n m. Basta
con escoger como direcciones de descenso a vectores

d
k
en EN(A
t
) para que
la sucesin generada por el mtodo de descenso permanezca en . A estas
direcciones se les conoce con el nombre de direcciones admisibles.
Condiciones de primero y segundo orden
Las condiciones de primero y segundo orden, vistas en el captulo anterior,
nos permiten asegurar que si A es una matriz de rango completo y existe una
solucin (x
) del sistema
F(x
) + A
= 0, (6.1)
A
t
x
= e, (6.2)
que satisface
y
t
H
f
(x
)y > 0 y ,= 0, y EN(A
t
)
x
Con objeto de desacoplar las ecuaciones (6.1), usaremos el Lema 2.2.2.
de la seccin anterior: si x
es un punto admisible y regular de que es

punto extremo de F restringido a entonces resolver el sistema anterior es
equivalente a determinar primero x
que satisfaga
F(x
)
t
y = 0 y EN(A
t
) (6.3)
y posteriormente
A
= F(x
).
6.1.2. Mtodo de Newton
Para determinar numricamente un punto x
que satisfaga la ecuacin

(5.2) y (6.3) usaremos el mtodo de descenso; en cada iteracin k+1 se genera
un punto x
k+1
que satisfaga (6.3) para la aproximacin lineal de F(x
k+1
)
por la serie de Taylor alrededor de x
k
.
F(x
k+1
) F(x
k
) + H
F
(x
k
)(x
k+1
x
k
).
Es decir, se busca un punto x
k+1
que satisfaga
0 = y
t
F(x
k+1
) y
t
F(x
k
) +y
t
H
F
(x
k
) (x
k+1
x
k
) (6.4)
para toda y EN(A
t
).
Para garantizar que (6.4) se cumple para toda y EN(A
t
) basta hacerlo
para los elementos de una base. Sea z
1
, z
2
, . . . , z
nm
una base de EN(A
t
)
y sea Z '
nnm
la matriz con i-sima columna igual a z
i
entonces en la
iteracin k + 1 se debe cumplir que
0 = Z
t
F(x
k+1
).
Recordemos que la direccin de descenso en cada iteracin debe ser una
direccin admisible lo que implica que existe

b
k
R
nm
tal que Zb
k
= d
k
y
por lo tanto
0 = Z
t
F(x
k
+
k
Z
b
k
) Z
t
F(x
k
) +
k
Z
t
H
F
(x
k
)Z
b
k
Z
t
H
F
(x
k
)Z

b
k
= Z
t
F(x
k
).
6.1.3. Algoritmo de Newton
1. Dado x
0
.
2. Para k = 1, 2, . . . determine la direccin de descenso

d
k
por
Z
t
H
F
(x
k
)Z

b
k
= Z
t
F(x
k
), (6.5)
d
k
= Z
b
k
. (6.6)
y
x
k+1
= x
k
+
k
d
k
con
k
seleccionada para que F(x
k+1
) < F(x
k
).
3. Si |Z
t
F(x
k+1
)| < rtol y
x
k+1
x
k
x
k
rtol
A
t
A
k+1
= A
t
F(x
k+1
). (6.7)
y x
x
k+1
,
k+1
.
4. Si no se satisface el criterio de paro regresar a 2 y calcular otra iteracin.
Observaciones:
1. Para comprobar en cada iteracin que las condiciones de segundo orden
se cumplen, el sistema (6.5) debe resolverse por Cholesky.
2. El clculo del multiplicador de Lagrange asociado al mnimo x
se ob-
tiene al resolver
A
t
A = A
t
F(x
).
En el algoritmo anterior se estima por
k+1
, solucin de
A
t
A
k+1
= A
t
F(x
k+1
).
Este valor se mejora cuando F(x
) se aproxima por medio de los dos

primeros trminos de la serie de Taylor cuando se expande alrededor
de x
k+1
A
t
A
k+1
= A
t
[F(x
k+1
) + H
F
(x
k+1
)(x
k+1
x
k
)]. (6.8)
El algoritmo anterior se simplica si contamos con la factorizacin QR
de la matriz A.
Algoritmo de Newton con factorizacin QR
1. Dado x
0
y A = QR, matriz de rango completo.
2. Para k = 1, 2, . . . determine la direccin de descenso

d
k
por
Q
t
2
H
F
(x
k
)Q
2

b
k
= Q
t
2
F(x
k
),
d
k
= Q
2
b
k
.
y
x
k+1
= x
k
+
k
d
k
con
k
seleccionada para que F(x
k+1
) < F(x
k
).
3. Si |Q
t
2
F(x
k+1
)| < rtol y
x
k+1
x
k
x
k
rtol
R
k+1
= Q
t
1
F(x
k+1
). (6.9)
y x
x
k+1
,
k+1
.
4. Si no se satisface el criterio de paro regresar a 2.
Ejemplos
1. Dada una funcin cuadrtica
F(x) =
1
2
x
t
Gx x
t
f + c
con G matriz positiva denida, supongamos que
= x '
n
[A
t
x = e,
con A '
nm
de rango completo igual a m.
En este caso el algoritmo de Newton converge en una iteracin ya que
F(x
) = F(x
0
) + Gd
0
por ser F cuadrtica. Dado x
0
, la solucin exacta (x
, ) se obtiene
al resolver
Q
t
2
G Q
2

b
0
= Q
t
2
F(x
0
),
x
= x
0
+ Q
2
b
0
,
con F(x
0
) = Gx
0

f y
R
= Q
t
1
F(x
).
2. Apliquemos lo anterior para determinar el punto en
= x '
3
[2x + 3y z = 4; x y z = 1
cuya distancia al origen es mnima.
La funcin objetivo es F(x) = x
2
+ y
2
+ z
2
y A
t
es de la forma
A
t
=
_
2 3 1
1 1 1
_
con rango 2, por lo que todos los puntos de son regulares.
Al resolver el problema por multiplicadores de Lagrange se obtiene que
x
=
1
21
(19, 11, 13) y

= (
4
7
,
2
3
) es solucin de las condiciones de
primero y segundo orden por lo cual x
es un mnimo de F restringido
a .
Apliquemos el algoritmo de Newton: sea x
0
= (0, 3/4, 7/4), F(x
0
) =
Gx
0
= (0,
3
4
,
7
4
) y
EN(A
t
) = x '
3
[x = (4t, t, 5t) t '.
Sea Z
t
= (4, 1, 5) entonces b
0
' debe satisfacer
Z
t
GZb
0
= Z
t
F(x
0
);
por lo que b
0
= 19/84 y
d
0
= Zb
0
=
_
_
0.904761905
0.226190476
1.130952381
_
_
.
Entonces
x
= x
0
+

d
0
= (0.904761905, 0.523809524, 0.619047619).
Por otro lado,
A
t
A
= A
t
F(x
1
)
=
_
0.571428571
0.666666667
_
que coincide con la solucin obtenida analticamente.
La factorizacin QR de la matriz A es
Q =
_
_
0.534522484 0.577350269 0.6172134
0.801783726 0.577350269 0.15430335
0.267261242 0.577350269 0.77151675
_
_
R =
_
_
3.741657387 1.11022E 16
0 1.732050808
0 1.1395E 16
_
_
Q
1
=
_
_
0.534522484 0.577350269
0.801783726 0.577350269
0.267261242 0.577350269
_
_
y Q
t
2
= (0.6172134, 0.15430335, 0.77151675). En este caso b
0
= 1.465881825
y d
0
= (0.904761905, 0.226190476, 1.130952381) que coincide con los
clculos anteriores.
6.2. Caso de restricciones de desigualdad
Consideremos que tenemos el siguiente problema
mn
x
F(x),
con
= x '
n
[
h(x) = A
t
x e 0
un subconjunto distinto del vaco de '
n
. Supongamos que el problema admite
una solucin.
El algoritmo de gradiente proyectado puede generalizarse para el caso de
restricciones de desigualdad. Dado un punto x , denotemos por I(x) el
conjunto de ndices asociados a las restricciones activas, supongamos que q
es la cardinalidad de I(x). Sea A
q
la matriz '
nq
cuyas columnas son los
gradientes de las restricciones activas. Si el rango de A
q
es igual a q puede
factorizarse de la forma
A
q
= Q
q
R
q
= [Q
1
q
, Q
2
q
]
_
R
q
0
_
y Q
2
q
es una base para EN(A
t
q
).
Uno de los aspectos que se requiere modicar para adaptar el algoritmo
proyectado cuando se tiene restricciones de desigualdad es que dada una
direccin admisible

d
k
, el punto
x
k
+
d
k
puede no estar en para todo valor de ya que las restricciones pasivas
pueden ser violadas dado que en el clculo de

d
k
slo se toma en cuenta las
restricciones activas. Para garantizar que esto no sucede se calcula, para cada
una de ellas, para cul valor de > 0
h
j
(x
k
+
d
k
) = h
j
(x
k
) + A
t
j
d
k
= 0
y se selecciona el valor ms pequeo para toda j; es decir si
t
= mn
iI(x
k
)
i
=
h
j
(x
k
)
A
t
j
d
k
, A
t
j
d
k
> 0,
y
t
,= 0, entonces se selecciona
k
=
t
; si adems F(x
k+1
) < F(x
k
) entonces
la restriccin t se vuelve activa por lo cual debe incluirse en la matriz A y, en
consecuencia, actualizarse la factorizacin QR antes de checar si se cumple
la condicin de paro. Si
k
= 0 no hay puntos admisibles que se puedan
obtener a partir de la direccin admisible por lo que x
k+1
= x
k
y F
k+1
= F
k
y g
k+1
= g
k
.
Algoritmo de gradiente proyectado con restricciones de
desigualdad
1. Dado x
0
, sea I(x
0
) y A
q,0
matriz de rango completo con factori-
zacin QR que denotaremos por Q
q,0
R
q,0
.
Para k = 1, 2, . . . determine:
2. Calcular la direccin admisible

d
k
por
Q
2 t
q,k
H
F
(x
k
)Q
2
q,k
b
k
= Q
2 t
q,k
g
k
,
d
k
= Q
2
q,k
b
k
.
3. Para seleccionar
k
se hace lo siguiente: sea
t
= mn
jI(x
k
)
j
=
h
j
(x
k
)
A
t
j
d
k
A
t
j
d
k
> 0,

k
=
t
y
x
k+1
= x
k
+
k
d
k
.
a) Si
k
= 0 entonces x
k+1
= x
k
, F
k+1
= F
k
y g
k+1
= g
k
y es necesario
quitar alguna de las restricciones activas. Ir al Paso 6.
b) Si
k
,= 0 entonces F
k+1
= F(x
k+1
) y g
k+1
= F(x
k+1
).
4. Si |Q
2,t
k+1
g
k+1
| < rtol y
x
k+1
x
k
x
k
rtol
R
k+1
k+1
= Q
1,t
k+1
g
k+1
(6.10)
y x
x
k+1
,
k+1
. Se detiene el algoritmo.
5. Si no se satisface el criterio de paro regresar al Paso 2 a calcular una
nueva direccin.
6. (Paso para quitar restricciones) Determinar los multiplicadores de La-
grange para el punto x
k
R
q,k
q,k
= Q
1,t
q,k
g
k
.
Determinar la componente negativa t de

q,k
que cumple
(
q,k
)
t
= mn(
q,k
)
i
< 0
y a la matriz A se le quita la t-sima columna para obtener
A
q1,k
= [a
1
....a
t1
a
t
...a
q
].
Se factoriza de la forma
A
q1,k
= [Q
1
q1,k
, Q
2
q1,k
]
_
R
q1,k
0
_
,
con Z
q1,k
= Q
2
q1,k
; se regresa al Paso 2.
7. (Paso para incluir restricciones) Sea t a nueva restriccin activa, en-
tonces A
q+1,k+1
= [A
q,k
a
t
] y al factorizarla de la forma QR se obtiene
A
q+1,k+1
= [Q
1
q+1,k+1
, Q
2
q+1,k+1
]
_
R
q+1,k+1
0
_
.
Calcular nueva direccin. Ir al Paso 4.
Ejemplo
1. Consideremos el siguiente problema del portafolio sin ventas en corto
Min
1
2
w
t
[] w,
sujeto a h
1
( w) = 0.2w
1
+ 0.25w
2
+ 0.15w
3
= .24,
h
2
( w) = w
1
+ w
2
+ w
3
= 1,
w
i
0 i = 1, . . . , 3
con
[] =
_
_
0.2 0 0
0 0.18 0
0 0 0.15
_
_
.
La solucin de este problemas es w
= (.2, .8, 0). Seleccionamos como

w
0
a (0.1, 0.85, 0.05). En este caso g
0
= (0.02, 0.153, 0.0075),
A
0
=
_
_
0.2 1
0.25 1
0.15 1
_
_
,
EN(A
t
) = y '
3
[.2y
1
+ .25y
2
+ .15y
3
= 0; y
1
+ y
2
+ y
3
= 0
y

Z
t
0
= (1, .5, .5). Como [
Z
t
0
g
0
[ = 0.06025 generamos la direccin

d
0
al resolver
Z
t
0
[]
Z
0
b
0
=
Z
t
0
g
0
cuya solucin es b
0
= 0.213274 y
d
0
= b
0
Z
0
=
_
_
0.213274
0.106637
0.106637
_
_
.
Para determinar el valor de
0
determinamos
= mn
0.1 + 0.2132
1
, 0.85 0.106637
2
, 0.05 0.106637
3
cuyo valor es
3
= 0.468880. Por lo que
0
= 0.468880 y x
1
= (0.2, 0.8, 0).
Como F(x
1
) = 0.0616 < F(x
0
) = .06621 entonces se procede a calcular
el multiplicador de Lagrange, pero antes se actualiza la matriz A
1
a
A
1
=
_
_
0.2 1 0
0.25 1 0
0.15 1 1
_
_
,
y resolvemos A
1
1
= g
1
con g
1
= (0.04, 0.144, 0). Entonces
= (2.08, 0.376, 0.064)

y como
3
> 0 el algoritmo se detiene por haber encontrado la solucin
ptima.
2. Apliquemos el algoritmo a una funcin objetivo que no sea cuadrtica.
mn F(x, y) =
1
xy
sujeta a x + y = 2,
x, y > 0.
0.5 1 1.5 2 2.5
x
-0.5
0.5
1
1.5
2
y
Figura 6.1: Regin factible con las curvas de nivel de F.
En la Figura 6.1 se presenta y las curvas de nivel de la funcin F; un
candidato a ser punto extremo de F en es (1, 1) por estar en la curva
de nivel F(x, y) = 1. Las otras curvas de nivel que cortan al segmento
de recta corresponden a valores mayores.
Dado x
0
= (
3
2
,
1
2
), se tiene que g
0
= (
16
9
,
8
3
) y
H
F
(3/2, 1/2) =
_
32
27
16
9
16
9
32
3
_
.
En este caso el plano tangente en x
0
es
N((3/2, 1/2)) = y '
2
[ y
1
+ y
2
= 0
Una base de N((3/2, 1/2)) es (1, 1).
Aplicando el algoritmo anterior se obtiene
b
0
= 3/28

d
0
= (3/28, 3/28).
Para determinar el tamao de no se puede aplicar el paso 3 del
algoritmo porque la funcin F no est denida cuando alguna de las
coordenadas se anula. En este caso se aplica bsqueda lineal exacta
determinando el que satisface:
dF(x
0
+
d
0
)
d
= F(
3
2

3
28
,
1
2
+
3
28
)
t
d
0
= 0.
6.3. MTODO DE FRANK-WOLFE 131
Al resolver se obtiene = 14/3 por lo que x
1
= (1, 1). Por ltimo,
para checar las condiciones de optimalidad se calcula (1, 1)
t
g
1
, como
es igual a cero, (1, 1) es el mnimo de F restringido a .
6.3. Mtodo de Frank-Wolfe
El mtodo de Frank-Wolfe o de gradiente reducido es un mtodo prop-
uesto por Marguerite Frank and Phil Wolfe in 1956. Es un mtodo iterativo
para problemas de optimizacin no lineales con restricciones lineales y fue
inicialmente concebido para el caso de funciones objetivo cuadrticas. El
mtodo consiste en lo siguiente: en cada iteracin se aproxima la funcin
objetivo por una funcin cuadrtica y se obtienen las condiciones de Kuhn-
Tucker respectivas. A partir de estos elementos se construye un problema de
programacin lineal en el que las condiciones de Kuhn-Tucker aparecen como
restricciones y la funcin objetivo a minimizar es una combinacin lineal de
variables articiales, cuyo valor mnimo se obtiene cuando stas son cero. El
mtodo no es competitivo respecto a otros mtodos ms sosticados, pero
sigue siendo muy usado en problemas de muchas dimensiones como los que
aparecen en los problemas de asignacin de trco. Ilustremos este algoritmo
con el siguiente problema cuadrtico.
Sean A '
mn
y H '
nn
, determinar x '
n
y

'
m
tal que
MinF(x) =
1
2
x
t
Hx c
t
x
sujeto a : A
t
x = b,
x 0.
Las condiciones de Kuhn-Tucker correspondientes son:
Hx + A = c,
A
t
x = b,
x 0.
El problema de programacin lineal asociado se construye de la siguiente
forma: las condiciones de Kuhn y Tucker se imponen como restricciones y
de esta manera una solucin admisible automticamente cumple las condi-
ciones de Kuhn y Tucker. Por otro lado, se usa el procedimiento de variables
articiales de programacin lineal para encontrar una solucin admisible. Se
introducen tantas variables articiales y
i
, no negativas, como restricciones de
igualdad se tengan: n + m; por ltimo, se propone como funcin objetivo la
suma de las y
i
. En suma el problema a minimizar es
Min
n+m
i=1
y
i
sujeto a Hx + A + I
1
y = c,
A
t
x + I
2
y = b
x
i
, y
i
0,
con I
1
'
nm+n
y I
2
'
mm+n
matrices por bloques de la forma I
1
=
[I
nn
0] y I
2
= [0 I
mm
].
Ejemplo
En el caso del problema del portafolio de optimizacin sin ventas en corto
el problema de programacin lineal asociado es
Min
n+2
i=1
y
i
sujeto a w + r +
1 +
n
i=1
y
i
e
i
= 0,
w
t
r + y
n+1
= r
1
t
w + y
n+2
= 1,
w
i
, y
i
0.
Se puede usar cualquier software para resolver este problema. En parti-
cular Excel tiene el mdulo Solver, Mathematica y Matlab tienen subrutinas
especcas de programacin lineal.
6.4. Ejercicios
1. Resuelva por el mtodo de Frank-Wolfe el problema del portafolio sin
ventas en corto que aparece en la seccin 2.3.
2. Resuelva por el mtodo de Frank-Wolfe el ejercicio 11 del captulo 2.
3. Resuelva el ejercicio 2 por medio del algoritmo de gradiente proyectado
y compare sus resultados con los obtenidos en el ejercicio anterior.
6.4. EJERCICIOS 133
4. Adapte el algoritmo de gradiente proyectado para resolver el problema
de programacin convexa que aparece en el ejercicio 10 del captulo 2.
Bibliografa
[1] Bazaraa M. and Sherali H. Nonlinear programming: Theory and algo-
rithms. Wiley. Third Edition. 2006.
[2] Dennis J. E. and Schnabel R. Numerical methods for unconstrained
optimization and nonlinear equations. Classic in Applied mathematics
16. SIAM. 1996.
[3] Gill, Murray & Saunders. Practical Optimization. Academic Press. 1981.
[4] R. Fletcher. Practical Methods of Optimization. Wiley 1987.
[5] Diego Bricio Hernndez.Ciencia y Matemticas: los modelos de predic-
cin. Ciencia 31, 103-121. 1980.
[6] D. Luenberger. Programacin Lineal y no Lineal. Addison Wesley - Ed-
itorial Iberoamericana. 1989. (2 edicin).
[7] Mark Meerschaert. Mathematical Modelling. Academic Press. 1993.
[8] J. Mathews y K. Fink. Mtodos Numricos con Mathlab. Tercera edi-
cin.Pearson. Prentice Hall. 2007.
[9] Jorge Nocedal y Stephen J. Wright. Numerical Optimization. Second
Edition. Springer. 2000.
[10] Peressini A., Sullivan F. y Uhl J.J. The mathematics of Nonlinear prob-
lems. Springer. 2000.
[11] L.E. Scales Int. to Non linear Optimization. Springer Verlag. 1985
[12] Gilbert Strang. Algebra lineal y sus aplicaciones. Addison-Wesley
Iberoamericana. 1986.
135
136 BIBLIOGRAFA
[13] Sundaram Rangarajan. A First Course in Optimization theory. Cam-
bridge university Press. 1996.

Opti2 2010

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Opti2 2010

Transféré par

Droits d'auteur :

Formats disponibles

Introduccin a la optimizacin no lineal

Patricia Saavedra Barrera

S que satisface que

[[ < . De la misma forma se dene un mximo

S, necesariamente ste debe ser un punto crtico.

es un punto extremo de f, entonces

es igual al vector cero.

S entonces, por el Teorema de Taylor, para todo

es un punto crtico de f, por el teorema anterior

) es continua y adems por hiptesis

). Por la igualdad (2.2)

un punto de S y supngase que x

es un mnimo local de f en S. Entonces

) es una matriz semidenida positiva.

es un mnimo. Si todos los valores propios

es un mximo; por ltimo, si hay valores propios

) F(x) x B(0, r).

) F(0). Si seleccionamos una

es un mnimo local entonces existe r > 0 tal que V

) F(x). Sea y cualquier otro elemento

2x + 4y. Para ello, encuentre primero los valores y vectores propios de

y que es una funcin dos veces continuamente diferenciable en una vecindad

y si F esta acotada inferiormente, las siguientes

por medio del k-simo trmino de

y denamos una nueva funcin

por la k-sima iteracin en una norma

b +c con A matriz simtrica y positiva denida; dado x

b, lo que implica que

un mnimo local de una funcin F. Supngase que

) para pequea y menor o igual

y el orden de convergencia es dos.

)), existe una constante positiva

y de la manera en que se determin .

74 CAPTULO 3. MTODOS DE DESCENSO

y usando la relacion (3.17) concluimos que

al usar de nuevo que g

), y una tolerancia rtol > 0;

entonces se cumplen las condi-

) debe ser positiva

) es de rango completo entonces J

) es positiva denida, entonces H

) es positiva denida siempre que

) sea de rango completo.

y en consecuencia tambin S(x

los valores que toma S son pequeos y este

se dice que es un mnimo de F restringido

se dice que es un mximo de F restringido

es un punto extremo de F re-

es un punto regular de si el conjunto

) el plano tangente a la supercie en el punto

y que est sobre

h una funcin continuamente diferenciable en un abier-

es un punto regular admisible de entonces

. Supongamos que x(0) = x

) entonces hay que

impongamos la condicin que u(0) = 0. Para

es un punto regular por lo que el rango

(0) = y. As que y T(x

un punto regular de las restricciones

), por el lema anterior, existe una curva x(t) que

es un punto extremo de F sobre

por la regla de la cadena se

) es ortogonal al espacio tangente siempre que x