Académique Documents
Professionnel Documents
Culture Documents
Tcnicas de optimizacin en ingeniera. Mster en Tecnologas de la Informacin y las Telecomunicaciones Curso 2006-2007 Profesora: M Pilar Jarabo Amores
ndice
1.
2.
Propiedades bsicas de las soluciones y los algoritmos. Ejemplos: filtros adaptativos y redes neuronales. Mtodos basados en el gradiente.
1. 2.
Mtodo de mxima pendiente. Filtro FIR adaptativo. Mtodo de Newton. Filtro FIR adaptativo.
4.
Mtodos Quasi-Newton.
Introduccin
OBJETIVO: Encontrar el mximo o el mnimo de una determinada funcin, llamada funcin objetivo" EJEMPLO: Sea la funcin objetivo f S Rn: espacio de bsqueda, definido por un conjunto de restricciones
hi (x) = 0, i=1,2,,m
gi (x) 0, i=1,2,,r
x=[x1,,xn]
Tipos de problemas
Programacin lineal:
La funcin objetivo, f(), es una funcin lineal de las incgnitas: x=[x1,,xn]. Las restricciones son funciones lineales de las incgnitas: : x=[x1,,xn].
Programacin no lineal:
La funcin objetivo, f(), es una funcin no lineal de las incgnitas: x=[x1,,xn].
x
hi (x) = 0, i=1,2,,m gi (x) 0, i=1,2,,r Son funciones no lineales de las incgnitas: x=[x1,,xn].
COMPLEJIDAD DE LOS PROBLEMAS: Se mide en trminos del nmero de variables a determinar (dimensin de
S) y el nmero de restricciones.
M Pilar Jarabo Amores TCNICAS DE OPTIMIZACIN EN INGENIERA 4
> 0 / x + d S 0
Si f es una funcin continua y sus primeras derivadas parciales tambin son continuas en S y x* es un mnimo relativo de f sobre S, para cualquier d Rn que sea una direccin viable, se cumple:
f ( x *) d 0
f ( x ) f ( x + td ) f ( x ) = lim t o t d
Gradiente de f en x:
f ( x ) f ( x ) f ( x ) , ,..., f ( x ) = x2 xn x1
f ( x ) f ( x ) = f ( x )d f ( x ) d d
La igualdad slo se da cuando d =
f ( x ) f ( x )
f ( x *) d 0
Al considerar x = x * + d , es una medida del desplazamiento que he realizado en la direccin d (viable) y en funcin de ese desplazamiento puede definirse la funcin:
g ( ) = f ( x * + d ) g ( 0 ) +
Como en x* hay un mnimo relativo:
dg ( ) d = 0
g ( ) g ( 0 ) 0
dg ( ) 0 f ( x *) d 0 d = 0
Si x* est en el interior de S (por ejemplo S=Rn), cualquier direccin d es viable. Por tanto:
f ( x *) = 0
M Pilar Jarabo Amores TCNICAS DE OPTIMIZACIN EN INGENIERA 7
f ( x ) = f ( x1 , x2 ) = x12 x1 + x2 + x1 x2 x1 0, x2 0
S=Rn
Ejemplo 1:
Sea la funcin de produccin f(x1,,xn) que proporciona la cantidad de un producto en funcin de las cantidades de materias primas (xi). El precio unitario del producto es q, mientras que el precio unitario de las materias primas es p1,,pn. Para maximizar el beneficio:
Maximice
q f ( x1 , x2 ,..., xn ) p1 x1 p2 x2 ... pn xn
f ( x1 , x2 ,..., xn ) = pi x1 xi
i = 1,...n
% g ( z ) = x1 + x2 z + ... + xn z n 1
En Rn, ha de encontrarse el vector de coeficientes x=[x1,,xn] que mejor aproxima la funcin g de acuerdo a algn criterio. Una de las funciones de error ms utilizadas es el error cuadrtico medio, que, a partir de las m observaciones disponibles se puede estimar como:
2 1 m % ' ( x ) = g ( zi ) g ( zi ) m i =1
Como m es una constante y el objetivo es minimizar el error, en muchos casos no se considera, pasando a minimizar la funcin:
% f ( x ) = g ( zi ) g ( zi )
i =1 m
f ( x ) = g ( zi ) x1 + x2 z i + ... + xn zi i =1
M Pilar Jarabo Amores
n 1
f ( x *) = 0 x* = [ x *1 , x *2 ,..., x *n ]
10
a ) f ( x *)d 0
2 f ( x) f (x) = F (x) = xi x j
2
x = x * + d
2 dg ( ) 1 d g ( ) g ( ) = f ( x * + d ) g ( 0 ) + + 2 2 2 d =0 d = 0
Si f ( x *)d = 0
dg ( ) =0 d = 0
d 2 g ( ) = d T 2 f ( x *) d 0 2 d =0
M Pilar Jarabo Amores
En x* hay un mnimo
2 1 d g ( ) 2 g ( ) g ( 0 ) = 2 2 d =0
11
a ) f ( x *) = 0 b) d, dT 2 f ( x *)d 0
Ejercicio 3: Considere de nuevo la funcin: Ejercicio 4: Considere la funcin:
2 f ( x ) = f ( x1 , x2 ) = x13 x12 x2 + x2
f ( x ) = f ( x1 , x2 ) = x12 x1 + x2 + x1 x2 x1 0, x2 0
x1 0,
x2 0
12
Ejercicio 4:
2 f ( x ) = f ( x1 , x2 ) = x13 x12 x2 + x2
x1 0,
x2 0
4 3 2 f 1 0 -1 -2 1 0 -0.5 x2 -1 -1 -0.5 x1
-1000 2000 3000
6.1
6.2
1000
0.5 0
0.5
13
14
a ) f ( x *) = 0 b) 2 f ( x *) es definida positiva
Entonces x*es un mnimo relativo estricto de f.
15
f ( x + (1 ) y ) f ( x ) + (1 ) f ( y ) x, y S 0 < < 1
f ( y ) f ( x ) + f ( x )( y x ) x, y S
f C2, es convexa en el conjunto convexo S, el cual contiene un punto interior, si y solo si la matriz hessiana de f es semidefinida positiva en todo S.
f ( y ) f ( x ) + f ( x )( y x ) +
x S , xT 2 f ( x )x 0
1 T ( y x ) 2 f ( x + ( y x ) )( y x ) 0 1 2
f ( y ) f ( x ) + f ( x )( y x ) x, y S
16
[1]
[2]
f ( x *)( y x *) 0,
Entonces x* es un mnimo absoluto de f en S.
yS
[3]
Si f C1, es convexa en el conjunto convexo S, y x* es un punto crtico, f ( x *) = 0 , f alcanza un mnimo absoluto en x*.
[4]
Sea S un conjunto abierto y convexo de Rn y f una aplicacin de S en R diferenciable y convexa en S. La funcin f alcanza un mnimo relativo en x* S, si y solo si x* es un punto crtico, f ( x *) = 0 . Adems, por [1], f alcanza mnimo absoluto en x*.
TCNICAS DE OPTIMIZACIN EN INGENIERA 17
x k +1 = A ( x k )
S1 = A ( x 0 )
Se elije aleatoriamente un elemento x1S1 y se aplica de nuevo el algoritmo para obtener un S2S. En general:
a) b)
x Z (y ) < Z (x) y A ( x ) x Z ( y ) Z ( x) y A ( x )
Minimice f ( x ) xS
Si x f ( x ) = 0
Z ( x ) = f ( x )
Algoritmos cerrados: Sean dos espacios mtricos X e Y y A(x) un algoritmo que a un punto x X le hace corresponder un subconjunto A(x) Y. A est cerrado en x X si:
b) y k y , y k A ( x k )
A est cerrado en X si est cerrado en todo x X.
a ) x k x, x k X
y A( x)
C ( x) = B ( y )
yA( x )
19
Sea A un algoritmo en X y suponga que dado x0 se genera la secuencia Sea X un conjunto solucin y suponga que:
{xk }k =0 / xk +1 A ( xk )
x k S X / S es compacto
Existe una funcin continua Z en X tal que: El lmite de cualquier subsecuencia convergente de es una solucin.
a ) Si x , Z ( y ) < Z ( x ) y A ( x ) b) Si x , Z ( y ) Z ( x ) y A ( x )
A est cerrado en puntos situados fuera de X
{x k }
20
1 2 ( x 1) + 1 A( x) = 1 x 2
x >1 x 1
[0,x) A( x) = 0
1 x > 0 x=0
= {0} Z ( x) = x
= {0} Z ( x) = x
21
0 lim
rk +1 r * rk r *
p
<
= lim
rk +1 r * rk r *
p
rk +1 r * = rk r *
lim
k
rk +1 r * rk r *
= <1
Entonces rk converge linealmente a r* con velocidad de convergencia En el caso de tener una secuencia de vectores, sus propiedades de convergencia se definen con respecto a alguna funcin continua f, analizando la convergencia de f(x) a f(x*). La funcin f suele recibir el nombre de funcin de error.
M Pilar Jarabo Amores TCNICAS DE OPTIMIZACIN EN INGENIERA 22
Filtros adaptativos
Definicin: Un sistema adaptativo puede definirse como aquel capaz de alterar o ajustar su estructura para mejorar su comportamiento a travs del contacto con el entorno en el que se desarrolla. Su comportamiento se evala de acuerdo a algn criterio que, generalmente, ser una funcin de error.
El proceso de adaptacin es un ejemplo de proceso de optimizacin para minimizar la funcin de error elegida (funcin objetivo). Una de las funciones de error ms utilizadas es el error cuadrtico medio. Al tratarse de una funcin objetivo no lineal, el problema de optimizacin a resolver puede clasificarse como un caso de programacin no lineal. Como adems, no vamos a imponer restricciones, estamos ante un ejemplo de programacin no lineal sin restricciones.
Filtro FIR
23
Filtros adaptativos
Sistemas adaptativos en lazo cerrado:
Ventajas: Aplicaciones para las que no existe o no se conoce ningn mtodo de sntesis analtico. Ante un fallo parcial del sistema, el sistema en lazo cerrado seguir funcionando reajustando y reoptimizando los controles que permanezcan intactos.
M Pilar Jarabo Amores
Inconvenientes: Puede que el criterio de funcionamiento, funcin objetivo, no tenga un nico mnimo. Como en los sistemas de control en lazo cerrado, el sistema puede ser o hacerse inestable (el proceso adaptativo o de optimizacin diverge en lugar de converger).
TCNICAS DE OPTIMIZACIN EN INGENIERA 24
Filtros adaptativos
Aplicaciones de los sistemas adaptativos en lazo cerrado:
Identificacin: Modelado inverso:
Prediccin:
Cancelacin de interferencias:
25
Filtros adaptativos
Ejemplo: Combinador lineal adaptativo
yk = XT Wk = WkT X k k
k = d k XT Wk = d k WkT X k k k2 = d k2 WkT X k XT Wk 2d k XT Wk k k
E k2 = E d k2 WkT E X k XT Wk 2 Wk E d k XT k k
Se asume que la secuencia de entrada, la salida deseada y el error son procesos estacionarios
26
Filtros adaptativos
Ejemplo: Combinador lineal adaptativo
= min + ( W W *) R XX ( W W *)
T
MSE = E k2 = E d k2 WkT R XX Wk 2R Xd Wk
(W) ( W ) ( W ) , ,..., ( W ) = = 2R XX W 2R Xd = 0 w0 w1 wL
T
W* = R 1 R Xd XX
min = E d k2 W *T R XX W * 2RT W * Xd
Adems ( W ) = 2R XX. En la prctica, Rxx ser casi siempre definida positiva, aunque en ocasiones es semidefinida positiva.
2
27
Redes neuronales
Definicin: Procesador masivo paralelo distribuido, formado por unidades simples, con una propensin natural a almacenar conocimiento experimental y hacerlo disponible para ser usado. Se asemeja al cerebro humano en dos aspectos: La red adquiere el conocimiento del entorno a travs de un proceso de aprendizaje. La intensidad de las conexiones interneuronales, pesos sinpticos, se emplea para almacenar el conocimiento adquirido.
28
y g()
I ( x ) = 0 + i xi = xT w
i =1 n
1, x > 0 g ( x) = 0, x 0
Limitador en rampa (aprox. a amplificador lineal):
1, x 1 2 g ( x ) = y, 1 > x > 1 2 2 0, x 1 2
Funciones sigmoide: funcin logsitca:
... x2 x3 xn
g ( x) =
1 1 + exp ( ax )
Todas estas funciones tienen sus versiones simtricas en torno al origen [-1,1]
29
y
g()
x t C = ( x t ) C 1 ( x t )
2 T
Si C es simtrica, las superficies definidas por una distancia constante a t son hiperelipsoides, cuyos ejes principales vienen dados por los autovectores de C. Los autovalores de C determinan las varianzas a lo largo de cada uno de los ejes principales. La funcin de activacin suele ser de tipo gaussiano:
... x2 x3 xn
x2 ; g ( x ) = exp 2 ; > 0; x R x2 + 2 2
30
Perceptrn multicapa
En general, en las redes neuronales las neuronas se organizan formando capas (redes de una capa o multicapa). Atendiendo a cmo se conectan entre s las neuronas, las redes pueden ser de propagacin directa o recurrentes.
Capa 1
1
Capa 2
1
Capa L
1
10 11 z1 K 1 21
(1) (1) (1 )
(1)
g()
1
11
(1 )
1 0
( 1) ( 1)
gI()
1
y1
11
(2 )
1 0 g2 ()
( 2)
y1
( 2)
...
L 1
( L)
L0
( L)
gL ()
y1
( L)
20
(1)
11
(2 )
z1
2 1
( 1)
g()
2 0
(1 )
( 1)
2 1 y2
( 1)
( 2)
10 2M
(1 )
(2)
K 1
gI()
L1
( 2)
( L)
12
(2)
g()
2 0 w 22
(1 )
2 0 y 2 ...
( 2)
( L)
g2 ()
gL ()
y2
( L)
1M
(1 )
1K
(2)
1 M zM
( 1)
K 1 M 2
( 1)
(2 )
1
(2 ) (2 )
K 0 g2 () K K
K 1 y K... K K
(L )
K 0 gL ()
(L )
zM
K 0 gI()
yK
(L )
(1 )
(2 )
(L )
K 0 g()
(1)
yK
(1 )
K1 neuronas
K2 neuronas
KL neuronas
31
32
1. 2.
Dado un punto inicial, x0, se determina, de acuerdo a una regla prefijada, una direccin de movimiento, d1 (descendente). Se determina la magnitud del desplazamiento (el paso) en esa direccin hacia un mnimo relativo de la funcin objetivo en esa direccin: x1=x0+d1.
3.
En el punto nuevo, se determina una nueva direccin y se repiten los pasos 2 y 3. As: xk+1=xk+dk+1
Los algoritmos se diferencian en la regla que utilizan para determinar las sucesivas direcciones de movimiento.
LINE SEARCH : determinacin del mnimo en una direccin. Resolucin de un problema de minimizacin en una dimensin.
Soluciones: Mtodo de mxima pendiente. Mtodos basados en aproximacin de funciones: Mtodo de Newton.
33
x k +1 = x k k f ( x k )
f x k k f ( x k )
Recurdese el problema del diseo de filtros FIR adaptativos bajo el criterio de minimizacin del error cuadrtico medio:
f (x) =
1 T x Qx xT b 2
( W ) = E d k2 WkT R XX Wk 2R Xd Wk
Si Q es simtrica y definida positiva, todos sus autovalores son positivos y, adems, f es estrictamente convexa, por lo que su nico mnimo se obtiene igualando el gradiente a cero: Qx* = b Propiedades: Las regiones en las que f es constante son hiper-elipsoides en el espacio Rn. Los autovectores de Q son ortogonales (constituyen una base de Rn) e indican las direcciones de los ejes de los hiper-elipsoides. La magnitud de cada eje es inversamente proporcional al autovalor asociado al autovector que indica su direccin.
34
35
f ( x) = E (x ) =
1 T x Qx xT b 2
x* = Q 1b
1 (x x *)T Q(x x *) = f (x ) + x *T Qx * 2
x k +1 = x k k g k = x k k (Qx k b )
E (x ) = f (x ) = g(x ) = Qx b
f (x k k g k ) =
1 (x k k g K )T Q(x k k g K ) (x k k g K )T b 2
gT g K k = Tk g k Qg K
gT g K x k +1 = x k T k g Qg k K
g k
36
Teorema: Para cualquier vector inicial x0, el mtodo de mxima pendiente converge al nico mnimo x* de f.
Adems en cada iteracin k se cumple:
Aa E (x k +1 ) E (x ) A+ a
2
Donde a y A son, respectivamente, el menor y el mayor autovalor de Q. En general, se puede decir que el mtodo de mxima pendiente se ralentiza cuando los contornos de f se hacen ms excntricos (mayor es la diferencia entre los autovalores mximo y mnimo). Si a=A (contornos circulares), la convergencia tiene lugar en un solo paso. Caso particular: f no es cuadrtica En general, se utiliza la matriz hessiana de la funcin objetivo en la solucin como si fuera la matriz Q del caso cuadrtico. Teorema: Supngase que f C2, tiene un mnimo relativo en x* y que a>0 es el menor autovalor de su hessiana en x*, mientras que A>0 es el mayor. Si xk es una secuencia generada por el mtodo de mxima pendiente que converge a x*, entonces f(xk)converge linealmente a f(x*) con una velocidad de convergencia no superior a: [(A-a)/(A+a)]2.
M Pilar Jarabo Amores TCNICAS DE OPTIMIZACIN EN INGENIERA 37
= min + (w w *)2 ,
= E [xk xk ]
d wk +1 = wk = wk 2 (wk w *) = (1 2 )wk + 2w * dw k
Ecuacin en diferencias, lineal, de primer orden y de coeficientes constantes, cuya solucin es:
wk = (1 2 ) w0 + 2 w * (1 2 )
k n =0
k 1
lim wk = w *
wk = (1 2 )
1 (1 2 ) w0 + 2 w * 1 (1 2 )
wk = w * + (1 2 ) (w0 w *)
k
38
39
Como la razn no es negativa, el error cuadrtico medio nunca oscilar y ser estable si r=(1-2)2<1
40
Wk +1 = Wk ( Wk ) = Wk ( 2R XX Wk 2R Xd ) Wk +1 = Wk + 2 R XX ( W * Wk ) = ( I 2 R XX ) Wk + 2 R XX W *
(W) ( W ) ( W ) ( W ) = , ,..., = 2R XX W 2R Xd = 0 w0 w1 wL
T
W* = R 1 R Xd XX
Salvo que la matriz de autocorrelacin sea diagonal, cada wi(k+1) ser funcin de todos los componentes de Wk.
41
R XX = VV 1
w' '0 ( k +1) w' ' 1 20 L 0 0 k 0 w' ' w' '1( k +1) = 0 1 21 L 0 1k M M M M M 1 2 L w' ' w' ' Lk L ( k +1)
wi''( k +1) = (1 2 i ) w ''ik i = 0,1,...L Wk'' = ( I 2 ) W0''
k
El algoritmo converge si
lim (1 2 i ) = 0 i = 0,1,...L
k k
CONDICIN NECESARIA Y SUFICIENTE PARA LA CONVERGENCIA DEL ALGORITMO SOBRE UNA SUPERFICIE DE ERROR CUADRTICA:
0< <
max
43
Wk = W * + ( I 2 R XX ) ( W0 W *)
k
La curva de aprendizaje es la suma de L+1 progresiones geomtricas con razones dadas por
(1 2 n )2
44
q ( x ) = f ( xk ) + f ' ( xk )( x xk ) +
1 2 f '' ( xk )( x xk ) 2
xk +1 = xk
f ' ( xk ) f '' ( xk )
El mtodo puede interpretarse como una tcnica para resolver de forma iterativa ecuaciones de la forma: g(x)=f (x)=0
xk +1 = xk
g ( xk ) g ' ( xk )
Supngase que g(x) es continua y que g(x*)=0 y g(x*)0. Si x0 est suficientemente cerca de x*, la secuencia {xk}k=0 generada por el mtodo de Newton converge a x*, con, al menos, un orden de convergencia igual a 2.
M Pilar Jarabo Amores TCNICAS DE OPTIMIZACIN EN INGENIERA 45
f ( x ) q ( x ) = f ( x k ) + f ( x k )( x x k ) +
1 T ( x xk ) 2 f ( x k )( x x k ) 2
q ' ( x ) = f ( x k ) + 2 f ( x k )( x x k )
q ' ( x k +1 ) = f ( x k ) + 2 f ( x k )( x k +1 x k ) = 0
x k +1 = x k 2 f ( x k ) f ( x k )
Condiciones suficientes para que exista un mnimo relativo: Sea x* es un punto interior de S, si se cumplen las condiciones siguientes:
a ) f
2
( x *) = 0 ( x *)
es definida positiva
b) f
Entonces, si la hessiana es definida positiva en un mnimo relativo, x*, y f tiene derivadas segundas continuas, su hessiana es definida positiva en las proximidades de la solucin, x*, y el mtodo est bien definido en esa regin.
Teorema: Sea fC3 en Rn y asmase que su hessiana es definida positiva en un mnimo local x*; si el algoritmo comienza
suficientemente cerca de x*, los sucesivos puntos generados por el algoritmo convergen a x*. El orden de convergencia es al menos de 2.
M Pilar Jarabo Amores TCNICAS DE OPTIMIZACIN EN INGENIERA 46
2 Introduccin de un parmetro de ajuste: x k +1 = x k k f ( x k ) f ( x k ) El parmetro k se va ajustando para evitar que la funcin objetivo empiece a aumentar debido a trminos no cuadrticos. T
Modificacin de la hessiana antes de invertirla: Considere el siguiente algoritmo: x k +1 = x k k M k f ( x k ) donde Mk es una matriz nxn.
T
La direccin d k = M k f ( x k ) ser descendente si para >0 pequeo, f decrece cuando aumenta. Para valores pequeos de :
f ( x k +1 ) = f ( x k ) + f ( x k )( x k +1 x k ) + O x x k
) = f ( x ) f ( x ) M f
k k k
( xk )
+ O ( 2 )
Como 0, el segundo trmino de la derecha domina sobre el tercero. Para garantizar un descenso en f para pequeo, se requiere que T Impngase que Mk sea definida positiva f ( x k ) M k f ( x k ) > 0
47
x k +1 = x k k M k f ( x k )
Si Mk=I se obtiene el mtodo de nxima pendiente.
Si Mk= f ( x k ) se obtiene el mtodo de Newton, pero en un punto alejado de la solucin Mk puede que no sea definida positiva o incluso que no exista.
2
M k = k I + f
( xk )
k k = 0
Clculo de
para que Mk sea definida positiva: Elija una constante >0 y dado xk, calcule los autovalores de
( xk )
48
Mtodo de Newton
TCNICAS DE OPTIMIZACIN EN INGENIERA 49
Mtodos Quasi-Newton
Estos mtodos utilizan una aproximacin de la inversa de la matriz hessiana. Mtodo clsico:
x k +1 = x k k 2 f ( x 0 ) f ( x k )
1
T
La hessiana que se calcul con el primer punto es la que se emplea en todo el proceso.
Clculo aproximado de la inversa de la hessiana. Cmo puede construirse la inversa de la matriz hessiana a
partir del gradiente calculado en varios puntos. Sea f una funcin en Rn con segundas derivadas continuas. Si para dos puntos xk, xk+1, definimos
g k +1 = f ( x k +1 ) ; g k = f ( x k ) ; p k = x k +1 x k
T T
entonces
g k +1 g k 2 f ( x k ) p k
Si la hessiana es constante: q k g k +1 g k f p k
2
Adems puede determinarse de forma nica a partir de n direcciones p0,,pn-1, linealmente independientes y sus correspondientes q0,qn-1. Si P y Q son matrices cuyas columnas son pk y qk, respectivamente:
2 f = QP 1
M Pilar Jarabo Amores TCNICAS DE OPTIMIZACIN EN INGENIERA 50
Mtodos Quasi-Newton
Clculo aproximado de la inversa de la hessiana.
Llegados a este punto, se propone la construccin de aproximaciones sucesivas de la inversa de la hessiana, Hk, en funcin de datos obtenidos en los primeros k pasos de un proceso descendente, de modo que si la hessiana fuese constante:
H k +1qi = pi
0ik
Hn = (2 f )
-1
Para cualquier k<n el problema de construir una buena aproximacin de la inversa de la hessiana que en el caso de que esta sea constante satisfaga la relacin anterior, admite infinitas soluciones.
51
Mtodos Quasi-Newton
Correccin de rango 1.
Como F = f y su inversa son matrices simtricas, resulta lgico imponer que Hk, la aproximacin de F-1, tambin
2
H k +1 = H k + ak z k zT k
ak z k zT k
H k +1q k = p k :
T
p k = H k +1q k = H k q k + ak z k zT q k k
H k +1 = H k
( p H k q k )( p k H k q k ) + k
ak ( zT q k ) k
2
qT p k qT H k q k = ak ( zT q k ) k k k
M Pilar Jarabo Amores
( p H q )( p k H k q k ) H k +1 = H k + k T k k qk (pk Hk qk )
52
Mtodos Quasi-Newton
Correccin de rango 1.
En un proceso de optimizacin se calcular la direccin descendente en la iteracin k-sima como:
d k = H k g k
A continuacin se minimizar f(xk+kdk) con respecto a k0, para obtener: :
x k +1 = x k + k d k pk = k dk g k +1
( p H q )( p k H k q k ) H k +1 = H k + k T k k qk (pk Hk qk )
La frmula de actualizacin de Hk asegura que el resultado es una matriz definida positiva si el denominador es mayor que cero, condicin que no est garantizada. E incluso cuando es mayor que cero, puede ser demasiado pequeo dando lugar a problemas numricos.
M Pilar Jarabo Amores TCNICAS DE OPTIMIZACIN EN INGENIERA 53
Mtodos Quasi-Newton
Mtodo de Davidon-Fletcher-Powell En cada paso, la inversa de la hessiana se actualiza con la suma de dos matrices simtricas de rango 1. Tambin se conoce como correccin de rango 2.
Comenzando con cualquier matriz simtrica, definida positiva H0, cualquier punto x0 y k=0: Paso 1: d k = H k g k Paso 2: Minimizar f(xk+kdk) con respecto a k0, para obtener: x k +1 = x k + k d k Paso 3:
pk = k dk
g k +1
q k = g k +1 g k :
p k pT H k q k q T H k H k +1 = H k + T k T k pk qk qk Hk qk
Si Hk es definida positiva, tambin lo ser Hk+1
54