Académique Documents
Professionnel Documents
Culture Documents
STSIVA 2006
Palabras Clave Support Vector Machines, Prediccin de series de tiempo, Procesamiento de seales adaptativo, SVM, SVR.
I. I NTRODUCCIN
Universidad de los Andes; CMUA - Centro de Microelectrnica Universidad de los Andes; Grupo de Machine Learning
w Rd , b R
(1)
1
kwk2
2
s.a. zi hw, xi i b
hw, xi i + b zi para i = 1, . . . , m
mn
wRd ,bR
(2)
w=
m
X
(i i )xi
(6)
i=1
B. Kernels
1
C X
kwk2 +
(i + i )
2
m i=1
mn
0
wX ,, Rm
bR
s.a. i , i 0
(3)
zi hw, xi i b + i
hw, xi i + b zi + i
para i = 1, . . . , m
Note que en este problema, la funcin de costo est constituida por dos partes: la primera intenta mantener el modelo
lo menos complejo posible, mientras que la segunda intenta
minimizar una funcin de costo sobre los datos de entrenamiento. La constante C permite equilibrar la complejidad del
modelo obtenido con el nmero de errores que ste comete.
El problema de optimizacin (3) encuentra el modelo con
menor error de acuerdo con la funcin de perdida mostrada a
continuacin:
0,
si |x|
-error(x) =
(4)
|x| , si |x| >
Esta interpretacin del problema de optimizacin que resuelve SVR es ilustrada en la figura 1. En esta figura, nicamente los puntos que se encuentran fuera del tubo de tamao
contribuyen en el error. Por otra parte, el error de los puntos
por fuera del tubo aumenta linealmente.
Usualmente en lugar de resolver el problema de optimizacin (3) se resuelve su problema dual, el cual se muestra a
continuacin:
m
mn
, Rm
m
X
(i + i )
i=1
s.a.
m
X
m
X
zi (i i )
i=1
(i i ) = 0
i=1
0 i , i
C
m
w X 0, b R
(7)
(8)
, Rm
1
T
( ) K ( )
2
m
m
X
X
zi (i i )
(i + i ) +
+
f (, ) =
i=1
s.a.
m
X
(9)
i=1
(i i ) = 0
i=1
0 i , i C
para
i = 1, . . . , m
1 XX
(i i )(j j )hxi , xj i
f (, ) =
2 i=1 j=1
+
para
i = 1, . . . , m
(5)
Al resolver el problema dual (5) se obtienen los multiplicadores de Lagrange i y i de las restricciones del problema
primal (3). A partir de estos multiplicadores de Lagrange se
puede encontrar el vector w:
` C 1
, factible
Algorithm: SMO Q, m
` C 1
1
Qii Qij
i
[i , j ]
mn
Qji Qjj
j
i ,j
2
i
T
+ (eB + QBN K
)
N
j
C
s.a. 0 i , j
m
yi i + yj j = yTN TN
5) Actualizar ik+1 y jk+1 usando los ptimos
encontrados en el paso anterior.
6) Actualizar k+1
= kN
N
end
1 T T
K K
mn
f (, ) =
,
K
K
2
, Rm
+ eT + zT , eT zT
T
s.a.
e , eT
0 i , i C
para i = 1, . . . , m
(11)
Es claro que (11) es un problema de programacin cuadrtica de las mismas caractersticas que (10) y es fcilmente
resuelto utilizando SMO.
La combinacin de SMO con tcnicas de shrinking y
caching [3] ha permitido que la complejidad computacional
del algoritmo de entrenamiento de SVM est entre cuadrtica
y cbica. Dicha complejidad computacional depende del tipo
de problema y est bsicamente dominada por el nmero de
evaluaciones requeridas de la funcin kernel [9].
N
1 X
2
(zi zi )
2 N i=1
(12)
sen-cte
Serie-A
sen-var
20
5400
20
10
500
10
0.01
1
0.01
5
20
5
R EFERENCIAS
[1] V. Vapnik, Estimation of Dependences Based on Empirical Data [in
Russian]. Moscow: Nauka, 1979, (English translation: Springer Verlag,
New York, 1982).
[2] E. Osuna, R. Freund, and F. Girosi, An improved training algorithm
for support vector machines, in Neural Networks for Signal Processing
VII Proceedings of the 1997 IEEE Workshop, J. Principe, L. Gile,
N. Morgan, and E. Wilson, Eds. New York: IEEE, 1997, pp. 276 285.
[3] T. Joachims, Making largescale SVM learning practical, in Advances
in Kernel Methods Support Vector Learning, B. Schlkopf, C. J. C.
Burges, and A. J. Smola, Eds. Cambridge, MA: MIT Press, 1999, pp.
169184.