Chapitre 3

Traitement de données 2
Quelques méthodes supervisées: k-NN, SVM,

Arbres de décision et forêt aléatoire
Dr N. F. NGOM
Ecole Polytechnique de Thies

GIT-DIC2-2017/2018
26 avril 2022
Plan
Introduction
Méthodes à mémoire : K-plus proche voisin
Séparateur à vaste marge (SVM)
Arbres de décision
Méthodes d’ensemble : apprentissage collective
Conclusion
Introduction
Méthodes supervisées classiques
Méthodes à mémoire
I k-plus proches voisins,
I Autres : Classifieur Naif Bayes, Classifieur
Maximisation-Espérance (EM) pour étudier un modèle qui
possède des variables latentes ou cachées.
Machine à vecteurs de support (SVM),
Arbres de décision,
Méthodes d’ensemble
I Forêts aléatoires,
I Bagging and Pasting,
I Boosting (Adaboost, gradient boosting).
Réseaux de neurones (DIC2).
K-plus proche voisin

Les k plus proches voisins est un exemple d’apprentissage
basé sur la proximité ou la distance, dans lequel l’ensemble
d’apprentissage est mémorisé, de façon qu’une classification
pour un nouvel enregistrement non classé puisse être trouvée
simplement en le comparant aux enregsitrements les plus
similaires de l’ensemble d’apprentissage.
I Régression k-NN : le résultat est la valeur pour cet objet.
Cette valeur est la moyenne des valeurs des k plus proches
voisins.
I Classification k-NN : le résultat est une classe
d’appartenance. Un objet d’entrée est classifié selon le résultat
majoritaire des statistiques (vote majoritaire) de classes
d’appartenance.
Les performances de la méthode dépendent du choix de la
distance, du nombre de voisins et du mode de
combinaison des réponses des voisins.
K-NN : Modèle ?
Dis moi qui sont tes amis, et je te dirais qui tu es.
Pas de construction de modèles à partir d’un training set
(Leazy Learning)
I c’est l’échantillon d’apprentissage, associé à une fonction de
une fonction de choix de la classe en fonction des classes des
voisins les plus proches, qui constitue le modèle.
I Le modèle est l’échantillon : espace mémoire important
nécessaire pour stocker les données, et méthodes d’accès
rapides nécessaires pour accélérer les calculs.
Les voisins sont pris depuis un ensemble d’objets pour
lesquels la classe (en classification k-NN) ou la valeur (pour
une régression k-NN) est connue.
I Prédiction
• Régression : c’est la moyenne (ou la médiane) des variables y
des k plus proches observations qui servira pour la prédiction.
• Classification : c’est le mode des variables y des k plus
proches voisins qui servira de modèle.
Knn : Jeu de données

Soit D le jeu de données D composé de n paires (x, y ) avec
x la description d’un individu selon d descripteurs, y la classe
d’appartenance de cet individu parmi q classes possibles
D = {(x1 , y1 ) , (x2 , y2 ) , ..., (xn , yn )}
∀ (xi , yi )1≤i≤n , xi ∈ Rd , yi ∈ {1, 2, ..., q}
L’espace de représentation est munie d’une distance.
I Lorsque l’espace de représentation des observations est Rd , on
utilise la distance euclidienne.
v
u n
uX 2
d (x, y ) = t (xi − yi )
i=1
I Distance de Manhattan d1
k
X
d1 (x, y ) = |xi − yi |
i=1
k-NN : algorithme
Algorithme de classification
I Données en entrée : jeu de données D, distance d, nombre
de voisins k.
I Début algorithme : pour une nouvelle observation x dont
veut prédire sa variable de sortie, Faire
1. Calculer toutes les distances de cette obsevation x avec les
autres observations du jeu de données D.
2. Retenir les k observations du jeu de données D les proches de
x en utilisant la distance d.
3. Prendre les valeurs de y des k observations retenues
3.1 Régression : calculer la moyenne (médiane) de y retenues,
3.2 classification : calculer le mode de y retenues.
4. Retourner la valeur calculée dans l’étape 3 comme étant la
valeur qui a été prédite par k-NN pour l’observation x.
I Fin algorithme
Choisir k
Le choix de la valeur k à utiliser pour effectuer une prédiction
avec k-NN, varie en fonction du jeu de données.
I Valeur de k faible : l’algorithme va retourner comme variable
cible la plus proche observation.
I Valeur de k plus élevée : l’algorithme va atténuer certains
comportements appris à partir de l’ensemble d’apprentissage.
I k = N, N étant le nombre d’observations, on risque d’avoir du
overfitting.
Remarques
I les classes rares doivent être représentées suffisamment, afin
que l’algorithme ne prédise pas uniquement les classes les plus
communes.
I Taille du jeu de données : le k-nn doit garder en mémoire
l’ensemble des observations pour pouvoir effectuer sa
prédicition.
I Le choix de la méthode de calcul de la distance ainsi que le
nombre de voisins k n’est pas évident.
SVM : définitions [?]
Une machine à vecteurs de support ou séparateur à vaste

marge (SVM, introduit en 1992) est un modèle
I d’apprentissage automatique à la fois puissant et polyvalent
pour, capable d’effectuer jeux de données complexes mais de
taille réduite des classifications (données biologiques,
physiques, documents numériques, textures), des régressions,
des détections de données aberrantes, reconnaissance de de
forme (reconnaissance expressions faciales, reconnaissance de
la parole) ...
Vecteurs de support : points qui détermine la frontière de
décision (frontière de la marge).
Séparation linéaire
(xi , yi ) , i = 1...n, xi ∈ Rd , yi ∈ {−1, 1}

Lemodèle de classificateur SVM linéaire consiste à trouver

la classe d’une nouvelle instance x en calculant la fonction de
décision : f (x) = ŷ = w T x + b = w1 x1 + ... + wn xn + b
I f (x) 0 : classe (positive) 1 (yi = 1),
I f (x) ≺ 0 : classe (négative) 2 (yi = −1),
I f (x) = 0 : hyperplan (surface) de séparation (marge).
w la normale à l’hyperplan, b le décalage par rapport à
l’origine.
Classification SVM linéaire
Classification à Large Marge : Exemple fronière de decision
Frontière de trois classificateurs linéaires (gauche)

I Frontière (ligne tirets) : ne sépare pas correctement les classes.
I Frontières (lignes continus) : si proches des observations qu’ils
ne donneront probablement pas d’aussi bons résultats sur de
nouvelles observations.
Frontière de décision d’un classificateur SVM (droite)
I la ligne continue sépare les deux classes et équidistant que
possible des observations d’entraı̂nement les plus proche.
I Classification à large marge : le classeur ajuste le chemin le
plus large possible (lignes en tirets parallèles) entre les classes.
Classification à marge souple (ou rigide)
Classification à marge rigide (hard marging

classification)
I Principe : toutes les observations sont en dehors du chemin et
du bon côté.
I Inconvénients : elle fonctionne que si les données sont
linéairement séparables, très sensible aux données aberrantes.
Classification à marge souple (soft marging
classification) : trouver un bon équilibre entre conserver un
chemin aussi large que possible et limiter les empiètements de
marge (nombre d’observation se retrouvant à l’intérieur du
chemin).
Classification à marge souple (souple)

La classes SVM de Scikit-Learn : contrôle l’équilibre à l’aide du
paramètre C (plus la valeur de C est petite, plus le chemin sera
large, mais plus vous aurez d’empiètements de marge).
Remarque : Les SVM sont sensibles aux différences d’échelle de

variables. Il est ainsi conseillé de normaliser les données avant
traitement.
Entraı̂nement d’un SVM linéaire
SVM en ligne
Pour les classificateurs SVM linéaires, une des méthodes
consiste à utiliser une descente de gradient pour la
fonction de coût, dérivée du problème primal.
La fonction coût est
m
1 T X
J (w , b) = w .w + C max(0,1−t (i) (w T .x (i) +b))
2
i=1
I Le premier terme de la fonction coût contraint le modèle à

avoir un petit vecteur de pondération w , ce qui conduira à une
large marge.
I Le deuxième terme correspond au total de tous les
empiètements de marge.
Remarque : Cette démarche converge beaucoup plus
lentement que les méthodes basées sur la programmation
quadratique.
Optimisation quadratique avec constante linéaire

Les problèmes d’optimisation à marge rigide et marge
souple sont tous les deux des problèmes d’optimisation
quadratique avec constante linéaire.
(
min 12 p T .H.p + f T p
avec A.p ≤ b
où p est un vecteur de dimension np (nombre de paramètres),

H une martice de dimension np × np , f est un vecteur de
dimension np , A une matrice de dimension nc × np , b un
vecteur.
A.p ≤ b définit nc contraintes : p T .a(i) ≤ b (i) pour
i = 1, 2...nc , a(i) est le vecteur comportant les éléments de la
ieme ligne de A et ieme élément de b.
Optimisation quadratique et entraı̂nement
Entraı̂ner une classificateur SVM linéaire consiste à

trouver w et b rendant la marge aussi large que possible tout
en évitant les empiétements de marge (marge rigide) ou en les
limitant (marge souple).
Considérons la pente de la fonction de décision kw k
I plus le vecteur de pondérations w est petit, plus la marge est
grande,
I il faut donc minimiser kw k pour obtenir une large marge.
Objectif : minimiser 12 w T .w = 1
2 kw k2 au lieu de kw k
2
I Le résultat sera le même mais 12 kw k possède une dérivée très
simple alors que kw k n’est pas différentiable en w = 0.
I Les algorithmes d’optimisations donnent de meilleurs résultats
sur les fonctions différentiables.
Classication linéaire à marge rigide

Si nous voulons éviter tout empiètement de marge (marge
rigide), alors Il faut une fonction de décision qui soit
supérieur à 1 pour toutes les observations
d’entraı̂nements postives, et inférieure à -1 pour toutes
les observations d’entraı̂nement négatives

t (i) w T .x (i) + b ≥ 1
où t (i) = −1 pour les observations négatives et t (i) = 1 pour

les observations positives
Classificateur SVM linéaire à marge rigide
(
minw ,b 21 w T .w
avec t (i) w T .x (i) + b ≥ 1, i = 1...m

Classication linéaire à marge souple

Si nous voulons limiter les empiètements de marge (marge
souple), nous devons introduire une variable ressort (slack
variable) ξ ≥ 0 pour chaque observation
I ξ mesure de combien la ieme observation est autorisée à
empiéter sur la marge,
I Objectif : diminuer autant que possible les variables ressort
pour réduire les empilements de marge, et minimiser 12 w T .w
pour accroı̂tre la marge.
Classificateur SVM linéaire à marge souple
(
minw ,b,ξ 12 w T .w + C m (i)
P
i=1 ξ
avec t (i) w T .x (i) + b ≥ 1 − ξ (i) , ξ (i) ≥ 0, i = 1...m

où l’hyperparamètre C permet de définir un compromis entre

ces objectifs.
SVM linéaire : cas séparable (Problème duale)

Avec les multiplicateurs de Lagrange α, le problème dual
(plus facile à résoudre) devient
 Pn Pn T
maxα i=1 αi − i,j=1 αi αj yi yj xi xj

avec αi ≥ 0, i = 1, ..., nadmissibilité duale
Pn

i=1 αi yi = 0(stationarité)
Les vecteurs support sont ceux pour lesquels αi ≥ 0. La
fonction de décision permettant de classer une nouvelle
observation x est
Xn
∗
f (x) = αi∗ yi xiT x + b ∗
i=1
où xsT w ∗ + b ∗ = 1 valable pour tous les vecteur de support.

Le problème dual permet de gérer les cas non linéaire à

travers l’astuce du noyau contrairement au problème primal.
Astuce du noyau
Astuce du noyau
Supposons que vous vouliez appliquer une transformation φ
polynomial du second degré à un jeu d’entraı̂nement
bidimensionnel, puis entraı̂ner un classificateur SVM linéaire sur
le jeu d’entraı̂nement transformé
√
φ (x) = φ ((x1 , x2 )) = x12 , 2x1 x2 , x22
Si a, b est couple de vecteurs bidimensionnels, alors

2
φ (a)T .φ (b) = aT .b : le produit scalaire des vecteurs
transformés est égal au carré du produit scalaire des vecteurs
d’origine.
Astuce du noyau : vous n’avez pas besoin réellement de
tranformer les données
2 d’entraı̂nement. La fonction
K (a, b) = aT .b est appelée noyau polynomial.
Astuce du noyau
Astuce du noyau (suite)

En apprentissage automatique, un noyau (kernel, en
anglais) est une fonction permettant de calculer le produit
scalaire ϕ (a)T .φ (b) en utilisant uniquement les vecteurs
d’origine a et b, sans avoir à calculer la transformation φ.
Noyaux courants
I Linéaire : K (a, b) = aT .b,
d
I Polynomial : K (a, b) = γaT .b +n ,
2
I Radial gaussien : K (a, b) = exp −γ ka − bk ,

I sigmoide : K (a, b) = tanh γaT .b + n
Prédiction avec SVM à noyaux
X
hŵ ,b̂ φ x (n) = α̂(i) t (i) K x (i) , x (n) + b̂
i=1,α(i) 0
x (n) nouvelle instance, α(i) 6= 0

SVM non linéaire
SVM non linéaire : ajout variables polynomiales
Une approche pour gérer les jeux de données non

linéaires consiste à ajouter davantage de variables, par
exemple des variables polynomiales de manière à ce que les
variables qui en résultent soient linéairement séparable.
L’ajout de variables polynomiales est simple à réaliser mais
avec
I un degré polynomial faible, on ne peut pas tirer parti du jeux
de données très complexes,
I un degré polynomial élevé, on obtient un très grand nombre
de variables, ce qui ralentit trop le traitement.
Pour implémenter avec Scikit-Learn, il faut crée un Pipeline
composé d’un transformateur PolynomialFeatures, suivi d’un
StandardScaler et d’un LinearSVC.
SVM pour la régression (SVR)
Régression SVM linéaire

Pour faire de la régression avec le SVM, il suffit d’inverser
l’objectif
I au lieu d’essayer d’ajuster le chemin le plus large possible entre
deux classes en limitant les empiètements de marge, la
régression SVM s’efforce d’ajuster autant d’observations que
possible sur le chemin tout en limitant les empiétements de
marge.
La largeur du chemin est contrôlé par un hyperparamètre
dans ScikitLearn.
# régression SVM
from sklearn . svm import LinearSVR
svm_reg = LinearSVR ( epsilon =1.5)
svm_reg . fit (X , y )
SVM pour la régression (SVR)
Régression SVM linéaire
Ajouter davantage d’observations d’entraı̂nement à

l’intérieur de la marge n’affecte pas les prédicitions du
modèle : celui-ci est dit sensensible à près.
Arbre de décision
I Les arbres de décision sont
• des algorithmes d’apprentissage automatique polyvalents qui
peuvent effectuer tout à la fois des tâches de classification et
de régression et même des tâches à sorties multiples.
• les composants fondamentaux des forêts aléatoires qui
figurent parmi les puissants algorithmes d’apprentissage
automatique disponible.
I Ils fournissent une représentation hiérarchique de la
structure des données sous forme des séquences de
décision (tests) en vue de la prédiction d’un résultat ou d’une
classe.
Avantages : les arbres de décision ne requièrent que très peu
de préparation de données.
Apprentissage avec arbres de décision
Représentation
I Chaque noeud interne correspond à un attribut.
I Chaque noeud teste l’attribut correspondant et génére
plusieurs branches.
• Variable catégorielle : une branche par valeur de l’attribut,
• Variable numérique : test sur valeur.
I Les feuilles spécifient les classes.
Principe de la construction
I L’arbre est construit par partition récursive de la base
d’apprentissage en fonction de la valeur de l’attribut testé à
chaque itération (top-down induction),
I Le processus s’arrête quand les éléments d’un noeud ont la
même valeur pour la variable cible (homogénéité).
Arbre de décision : exemple jeu de données Iris

Arbre de décision
L’attribut samples d’un noeud compte le nombre
d’observations d’entraı̂nement passées par ce noeud.
L’attribut value d’un noeud indique combien d’observations
d’entraı̂nement de chaque classe sont passées par là : par
exemple le noeud en bas à droite a été atteint par 0 Iris
Sesota, 1 Iris versicolor et 45 Iris viginica.
L’attribut gini d’un noeud mesure son impureté : un noeud
est pur (gini=0) si toutes les observations qui y aboutissent
appartiennent à la même classe. L’impureté de gini vaut
n
X
Gi = 1 − pik
k=1
où pik est le pourcentage d’observations de la classe k parmi

toutes les observations d’entraı̂nement dans le ieme noeud.
Frontière de décision
Ligne verticale en trait plein : frontière de décision du

noeud racine (profondeur 0, Longueur des pétales vaut
2.45cm).
I La zone gauche étant pure (comporte que Iris Sesota), elle
peut plus être partagée.
I La zone de droite est impure et le noeud de droite de
profondeur 1 établit la séparation à largeur de pétale égale à
1.75cm (ligne tiret).
Profondeur maximale vaut 2.
Algorithme CART
Scikit-Learn utilise l’algorithme d’arbre de classification et
régression (en anglais, Classification and Regression Tree,
CART) pour entraı̂ner (faire pousser) les arbres de décision.
Principe : l’algorithme sépare d’abord le jeu
d’entraı̂nement en deux sous ensembles en utilisant une
seule caractéristique k et un seuil tk .
I CART recherche la paire (k, tk ) qui produit les sous
ensembles les plus purs. La fonction coût de CART pour la
classification est
mgauche mdroite
J (k, tk ) = Ggauche + Gdroite
m m
Ggauche,droite mesure l’impureté du sous ensemble gauche

(droite) ; mgauche,droite : nombre d’observations du sous
ensemble gauche (droite).
I CART applique la même logique aux sous-ensembles
suivants afin de les partager et ainsi de suite récursivement.
Algorithme CART
Remarques
I La recherche de l’arbre optimal est un problème NP-complet :
ceci requiert un temps de calcul en O (exp (m)), ce qui rend le
problème insoluble même pour des jeux d’entraı̂nement réduits.
I CART est un algorithme glouton (greedy algortihm)
• s’efforce à faire un partage optimal mais ne vérifie pas s’il
conduit à l’impureté la plus faible possible.
• solution relativement bonne, mais sans garantie que ce soit la
solution optimale.
Autres types de mesure d’impureté : Entropie
I L’entropie d’un jeu de données est nulle lorsque toutes ses
observations appartiennent à la même classe
X
Hi = − pi,k log (pi,k )
k=1;i,k6=0
I Remarque : l’entropie et l’impureté de Gini produisent des

arbres similaires.
CART : régression
La principale différence avec l’arbre de classification est au lieu

de prédire une classe dans chaque noeud, il prédit une valeur.
Arbres de décision : avantages et inconvénients

Points forts
I Le résultat est facile à conceptualiser et à visualiser,
I Ils nécessitent peu de préparation de données.
I Ils sont capables d’utiliser des données catégorielles et
continues et de gérer des problèmes multi-classe.
Points faibles
I Sur-apprentissage : parfois les arbres générés sont trop
complexes et généralisent mal
• Régularisation : les hyperparamètres de régularisation
dépendent de l’algorithme utilisé, mais vous pouvez au moins
limiter la profondeur maximale.
I Instabilité (variance élévée)
• des changements légères dans les données produisent des
arbres très différents ;
• les méthodes d’ensemble peuvent limiter cette instabilité
en effectuant une moyenne des prédictions par exemple
sur de nombreux arbres.
Intelligence collective (apprentissage d’ensemble)

Exemple
I Supposons que vous posiez une question complexe à des
milliers de personnes choisies au hasard et que vous combinez
leurs réponses.
I La synthèse de ces réponses est meilleure que celle d’un
expert.
Apprentissage d’ensemble : si vous aggrégez les prédictions
d’un groupe de prédicteurs (classificateurs, régression), vous
obtiendrez souvent une meilleure prédictions qu’avec le
meilleur des prédicteurs pris endividuellement.
Un groupe de prédicteurs constitue un ensemble.
Exemple de méthode d’apprentissage d’ensemble
I Bagging et pasting,
I Forêt aléatoire,
I Boosting.
Bagging et Pasting
Principe : utiliser le même algorithme d’entraı̂nement mais
l’entraı̂ner sur des sous ensembles différents extraits
aléatoirement du jeu d’entraı̂nement.
I Lorsque le tirage s’effectue avec remise, cette méthode
s’appelle bagging (bootstrap aggregating),
I Lorsque le tirage s’effectue sans remise, on l’appelle pasting.
Le bagging et le pasting permettent de prélever plusieurs
fois des observations d’entraı̂nement et de les utiliser
avec plusieurs prédicteurs mais seul le bagging permet de
réutiliser plusieurs fois des observations d’entraı̂nement pour
le même prédicteur.
Une fois que tous les prédicteurs ont été entraı̂nés, l’ensemble
peut effectuer une prédiction pour une nouvelle
observation en aggrégeant les prédictions de tous les
prédicteurs.
I L’aggrégation réduit à la fois le biais et la variance.
Forêt aléatoire
Une forêt aéatoire est un ensemble d’arbres de décision,
entraı̂nés en général en utilisant une méthode de bagging
(pasting).
Principe : entraı̂nez un ensemble d’arbre de décision chacun
sur un sous-ensemble aléatoire différent sur un jeu
d’entraı̂nement.
Pour obtenir des prédicteurs, il vous suffit d’obtenir les
prédictions de chacun des arbres puis de choisir la classe
obtenant le plus de vote.
Points forts
I permet de mesurer facilement l’importance relative des
variables
I une variable importante aura tendance, en moyenne, à réduire
l’impureté de Gini qu’une variable moins importante.
Forêts aléatoires (Breiman, 2001)

On tire au hasard dans la base d’apprentissage B échantillons
avec remise zi , i = 1, ..., B (n-échantillon),
Pour chaque échantillon i, on tire au hasard q attributs parmi
les p existants et on construit l’arbre CART Gi (x) sur ces
attributs.
RégressionP(agrégation par la moyenne)
G (x) = B1 B i=1 Gi (x),
Classification (agrégation par vote)
G (x) = VoteMajoritaire (G1 (x) , ..., GB (x))
Les arbres sont moins corrélés car
I Ils sont appris sur un ensemble différent des attributs,
I Ils sont construit sur des échantillons différents,
Chaque arbre est petit donc moins performant, mais
l’aggrégation compense pour ce manquement.
Boosting
Combine les sorties de plusieurs classifieurs faibles (weak
learners) pour obtenir un résultat plus fort.
Classifieur faible : un comportement de base meilleur que
l’aléatoire (taux d’erreur sous 0.5 pour une classification
binaire).
Idée générale : entraı̂ner des prédicteurs l’un après l’autre,
chacun s’efforçant de corriger son prédecesseur.
Méthodes
I Adaboost (Adaptative boosting) : pour un nouveau
prédicteur, l’un des moyens de corriger son prédécesseur
consiste à préter plus d’attention aux observations que ces
prédecesseurs a sous ajoustées.
I Gradient boosting : ajuste un nouveau predicteur aux erreurs
résiduelles du prédicteur précédent.
Conclusion
Conclusion
Le k-NN est très simple à appréhender principalement grâce
au fait qu’il n’a pas besoin de modèle pour fonctionner mais le
choix de la distance, de la taille du jeu d’entraı̂nement et du
nombre de voisin doit être effectué avec soin.
Un SVM est à la fois puissant et polyvalent pour, capable
d’effectuer jeux de données complexes mais de taille réduite
des classifications , des régressions, des détections de
données aberrantes, reconnaissance de de forme.
Arbres de décision : le résultat est facile à conceptualiser
et à visualiser et nécessitent peu de préparation de
données mais souffrent souvent du surapprentissage.
Apprentissage d’ensemble : si vous aggrégez les prédictions
d’un groupe de prédicteurs (classificateurs, régression), vous
obtiendrez souvent une meilleure prédictions qu’avec le
meilleur des prédicteurs pris endividuellement.
Conclusion
Références
Aurélien Géron. Hand on machine learning with scikit-learn

and tensorflow : concepts, tools and techniques to build
intelligents systèmes. 2017 O’Reilly. 760p
Marin Ferecatu et Michel Crucianu, Apprentissage, réseaux de
neurones et modèles graphiques : machines à vecteurs
surpport (SVM). Note de cours Conservatoire Nationale des
art et métiers (CNAM), Paris, France.

Chapitre 3

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Chapitre 3

Transféré par

Droits d'auteur :

Formats disponibles

Traitement de données 2

Quelques méthodes supervisées: k-NN, SVM,

Ecole Polytechnique de Thies

Méthodes à mémoire : K-plus proche voisin

Séparateur à vaste marge (SVM)

Méthodes d’ensemble : apprentissage collective

Méthodes supervisées classiques

K-plus proche voisin

Knn : Jeu de données

SVM : définitions [?]

Une machine à vecteurs de support ou séparateur à vaste

Lemodèle de classificateur SVM linéaire consiste à trouver

Classification à Large Marge : Exemple fronière de decision

Frontière de trois classificateurs linéaires (gauche)

Classification à marge souple (ou rigide)

Classification à marge rigide (hard marging

Classification à marge souple (souple)

Remarque : Les SVM sont sensibles aux différences d’échelle de

I Le premier terme de la fonction coût contraint le modèle à

Optimisation quadratique avec constante linéaire

où p est un vecteur de dimension np (nombre de paramètres),

Optimisation quadratique et entraı̂nement

Entraı̂ner une classificateur SVM linéaire consiste à

Classication linéaire à marge rigide

où t (i) = −1 pour les observations négatives et t (i) = 1 pour

Classication linéaire à marge souple

où l’hyperparamètre C permet de définir un compromis entre

SVM linéaire : cas séparable (Problème duale)

où xsT w ∗ + b ∗ = 1 valable pour tous les vecteur de support.

Le problème dual permet de gérer les cas non linéaire à

Si a, b est couple de vecteurs bidimensionnels, alors

Astuce du noyau (suite)

x (n) nouvelle instance, α(i) 6= 0

SVM non linéaire : ajout variables polynomiales

Une approche pour gérer les jeux de données non

Régression SVM linéaire

Régression SVM linéaire

Ajouter davantage d’observations d’entraı̂nement à

Apprentissage avec arbres de décision

Arbre de décision : exemple jeu de données Iris

où pik est le pourcentage d’observations de la classe k parmi

Ligne verticale en trait plein : frontière de décision du

Ggauche,droite mesure l’impureté du sous ensemble gauche

I Remarque : l’entropie et l’impureté de Gini produisent des

La principale différence avec l’arbre de classification est au lieu

Arbres de décision : avantages et inconvénients

Intelligence collective (apprentissage d’ensemble)

Forêts aléatoires (Breiman, 2001)

Aurélien Géron. Hand on machine learning with scikit-learn

Vous aimerez peut-être aussi