Vous êtes sur la page 1sur 4

Usos: SVM en reconocimiento de patrones: handwritten digit recognition object recognition speaker identification charmed quark detection face

ion face detection in images text categorization SVM como regresiones SVM para estimacion de densidad y descomposicion deANOVA SVM no tiene informacion del informacion a priori del problema, la data puede sufrir transformaciones y se obtendra el mismo resultado.(algo asi)

Problemas SVM the bias variance tradeoff (sesgo en el trade off de la varianza) overfitting Control de capacidad

H= VC dimensin, is a property if a set of functions f(a),The VC dimensin for a set of functions f(a) is defined as the maximum number of training points that can be shattered by f(a). Solo se pueden shattered m en Rn si los m son linealmente independientes Para R^n VC dimensin es n+1.

Note that the VC confidence term in Eq. (3) depends on the chosen class of functions, whereas the empirical risk and actual risk depend on the one particular function chosen by the training procedure.

Observamos tres puntos clave acerca de esta cota. En primer lugar , sorprendentemente , que es independiente de P ( x, y ) . Se asume solamente que tanto los datos de entrenamiento y los datos de los ensayos se dibujan de forma independiente de acuerdo con algunos P ( x, y ). En segundo lugar, por lo general no es posible calcular el lado de mano izquierda.En tercer lugar, si sabemos h , podemos calcular fcilmente el lado derecho. Por lo tanto dado varias mquinas de aprendizaje diferentes (recordemos que " la mquina de aprendizaje " es slo otro nombre para una familia de funciones f ( x; ) ) , y la eleccin de un fijo , lo suficientemente pequeo " , para entonces tomar esa mquina que reduce al mnimo la derecha , estamos eligiendo la mquina que da la menor cota superior sobre el riesgo real. Esto proporciona un mtodo basado en principios para la eleccin de una mquina de aprendizaje para una tarea determinada, y es la idea esencial de la minimizacin del riesgo estructural ( ver seccin 2.6 ). Dada una familia fijo de mquinas de aprendizaje para elegir , en la medida en que el lmite es apretada por lo menos una de las mquinas , uno no ser capaz de hacerlo mejor que esto. En la medida en que el lmite no es apretado para cualquier , la esperanza es que el lado de la mano derecha todava proporciona informacin til en cuanto a que la mquina de aprendizaje minimiza el riesgo real . El lmite no es difcil para toda la familia escogida de mquinas de aprendizaje da a los crticos un objetivo justificable que despedir a sus quejas La dimensin VC tiene utilidad en teora de aprendizaje estadstico, porque puede predecir el lmite superior probabilstico sobre el error de test del modelo de clasificacin. El lmite sobre el error de test del modelo de clasificacin (en datos de entrenamiento son independientes y cumplen una distribucin aleatoria de la misma distribucin) est dado por (3) con probabilidad , donde es la dimensin VC del modelo de clasificacin, y es el tamao del conjunto de entrenamiento. Find a classifier which : minimizes the error on the training set and maximizes the separating margin (i.e. improves generalization) Linear support vector machines {xi,yi} , yi e {-1,1}, xi e R^d, si hay un hiperplano que separa las clases se tiene que w*x+b=0, en donde w es la normal al hiperplano, |b|/||w|| es la distancia perpendicular del hiperplano al origen, ||w|| es la norma euclidiana, sean d+ (d-) la distancia mas corta que separa el hiperplano de las clases, se define margen como (d+) + (d-). Para el caso separable SVM busca el plano separador con ms margen.

Dual

KKT Condition

No separable

Non linear

However, in most realworld cases, Equations (43) (with dot products replaced by kernels), (44), and (45) must be solved numerically. For small problems, any general purpose optimization package that solves linearly constrained convex quadratic programs will do. A good survey of the available solvers, and where to get them, can be found16 in For larger problems, a range of existing techniques can be brought to bear. A full exploration of the relative merits of these methods would fill another tutorial. Here we just describe the general issues, and for concreteness, give a brief explanation of the technique we currently use. The basic recipe is to (1) note the optimality (KKT) conditions which the solution must satisfy, (2) define a strategy for approaching optimality by uniformly increasing the dual objective function subject to the constraints, and (3) decide on a decomposition algorithm so that only portions of the training data need be handled at a given time A given equality constrained problem can be solved in one step by using Newton method (una sola restriccin se activa a la vez Projection methods; This approach can add several new constraints at once. Note that in both approaches, several active constraints can become inactive in one step. In all algorithms, only the essential part of the Hessian (the columns corresponding to i 6= 0) need be computed in interior point methods, the variables are essentially rescaled so as to always remain inside the feasible region. In my opinion the hardest thing to get right is handling precision problems correctly everywhere. If this is not done, the algorithm may not converge, or may be much slower than it needs to be. A good way to check that your algorithm is working is to check that the solution satisfies all the Karush-Kuhn-Tucker conditions for the primal problem, 8. Limitations Perhaps the biggest limitation of the support vector approach lies in choice of the kernel. Once the kernel is fixed, SVM classifiers have only one user-chosen parameter (the error penalty), but the kernel is a very big rug under which to sweep parameters. Some work has been done on limiting kernels using prior knowledge (Scholkopf et al., 1998a; Burges, 1998), but the best choice of kernel for a given problem is still a research issue. A second limitation is speed and size, both in training and testing. While the speed problem in test phase is largely solved in (Burges, 1996), this still requires two training passes. Training for very large datasets (millions of support vectors) is an unsolved problem.Discrete data presents another problem, although with suitable rescaling excellent results have nevertheless been obtained (Joachims, 1997). Finally, although some work has been done on training a multiclass SVM in one step24, the optimal design for multiclass SVM classifiers is a further area for research.

Vous aimerez peut-être aussi