Académique Documents
Professionnel Documents
Culture Documents
Définition
Les “Support Vector Machins” appelés aussi « maximum margin classifier» (machine à vecteur de
support ou séparateur à vaste marge) sont des techniques d’apprentissage supervisé (considérés aussi
comme des classifieurs) basés sur la théorie de l’apprentissage statistique, un SVM repose sur les 2
notions de vaste marge et fonction Kernel, Les SVMs sont considéré comme l’un des modèles les plus
important parmi la famille des méthodes a Kernel.
2. Historique
1992 : pour la COLT 92 : proposition d’utilisation de la Kernel Trick d’Aizerman par Boser, Guyon and
Vapnik.
1995 : introduction du classifieur à marge souple (soft margin) par Vapnik & Cortes, la naissance
officielle des SVMs.
3. Domaines d’application
Reconnaissance de formes, classification, Bioinformatique, Régression.
4. Principe
Les SVMs sont des séparateurs linéaires par hyperplan reposant sur le principe de maximisation de la
marge qui est la distance minimale entre l’hyperplan optimal séparant les 2 classes et les points des
classes les plus proches a l’hyperplan.
Soit n exemples d’apprentissage sous formes de pairs { , } pour i=1…n avec ∈ et ∈ {-1,1},
la marge maximale est égale a . Comme la distance entre un hyperplan canonique et la marge est le
Les données Xi pour lesquels αi >0 sont appelées vecteur de support, ces points déterminent les
frontières de la marge.
Ou αi sont les multiplicateurs de Lagrange et ainsi αi >0, le Lagrangien L est à maximiser par rapport aux
αi et a minimiser par rapport a w et b, cherchez l’extremum de revient à calculer les dérivées
selon les conditions de KKT (Karush-Kuhn-Tucker) i.e. calculer les dérivés selon w et b, ce qui permet de
formuler le dual du problème d’optimisation primal :
La marge souple est considérée comme une relaxation de la marge dure justifiée par la présence des
exemples mal classifiés appartenant a la marge.
La fonction objective devient:
La formulation duale du problème est similaire à celle du cas linéairement séparable sauf que les
multiplicateurs de Lagrange deviennent bornés par C
SVM à Kernel
Les limites de l’approche s’exposent avec les données non linéairement séparables à tout point de
l’espace, la motivation derrière l’utilisation des fonctions Kernel est la possibilité de projeter les valeurs
des données vers un autre espace d’une dimension supérieure ou la séparation linéaire est possible.
5. Avantage:
- Absence d’optimum local.
6. Inconvénients :
- Besoin d’une bonne fonction Kernel.