Vous êtes sur la page 1sur 40

Traitement de données 2

Quelques méthodes supervisées: k-NN, SVM,


Arbres de décision et forêt aléatoire

Dr N. F. NGOM

Ecole Polytechnique de Thies


GIT-DIC2-2017/2018

26 avril 2022
Traitement de données 2

Plan

Introduction

Méthodes à mémoire : K-plus proche voisin

Séparateur à vaste marge (SVM)

Arbres de décision

Méthodes d’ensemble : apprentissage collective

Conclusion
Traitement de données 2
Introduction

Méthodes supervisées classiques

Méthodes à mémoire
I k-plus proches voisins,
I Autres : Classifieur Naif Bayes, Classifieur
Maximisation-Espérance (EM) pour étudier un modèle qui
possède des variables latentes ou cachées.
Machine à vecteurs de support (SVM),
Arbres de décision,
Méthodes d’ensemble
I Forêts aléatoires,
I Bagging and Pasting,
I Boosting (Adaboost, gradient boosting).
Réseaux de neurones (DIC2).
Traitement de données 2
Méthodes à mémoire : K-plus proche voisin

K-plus proche voisin


Les k plus proches voisins est un exemple d’apprentissage
basé sur la proximité ou la distance, dans lequel l’ensemble
d’apprentissage est mémorisé, de façon qu’une classification
pour un nouvel enregistrement non classé puisse être trouvée
simplement en le comparant aux enregsitrements les plus
similaires de l’ensemble d’apprentissage.
I Régression k-NN : le résultat est la valeur pour cet objet.
Cette valeur est la moyenne des valeurs des k plus proches
voisins.
I Classification k-NN : le résultat est une classe
d’appartenance. Un objet d’entrée est classifié selon le résultat
majoritaire des statistiques (vote majoritaire) de classes
d’appartenance.
Les performances de la méthode dépendent du choix de la
distance, du nombre de voisins et du mode de
combinaison des réponses des voisins.
Traitement de données 2
Méthodes à mémoire : K-plus proche voisin

K-NN : Modèle ?
Dis moi qui sont tes amis, et je te dirais qui tu es.
Pas de construction de modèles à partir d’un training set
(Leazy Learning)
I c’est l’échantillon d’apprentissage, associé à une fonction de
une fonction de choix de la classe en fonction des classes des
voisins les plus proches, qui constitue le modèle.
I Le modèle est l’échantillon : espace mémoire important
nécessaire pour stocker les données, et méthodes d’accès
rapides nécessaires pour accélérer les calculs.
Les voisins sont pris depuis un ensemble d’objets pour
lesquels la classe (en classification k-NN) ou la valeur (pour
une régression k-NN) est connue.
I Prédiction
• Régression : c’est la moyenne (ou la médiane) des variables y
des k plus proches observations qui servira pour la prédiction.
• Classification : c’est le mode des variables y des k plus
proches voisins qui servira de modèle.
Traitement de données 2
Méthodes à mémoire : K-plus proche voisin

Knn : Jeu de données


Soit D le jeu de données D composé de n paires (x, y ) avec
x la description d’un individu selon d descripteurs, y la classe
d’appartenance de cet individu parmi q classes possibles
D = {(x1 , y1 ) , (x2 , y2 ) , ..., (xn , yn )}
∀ (xi , yi )1≤i≤n , xi ∈ Rd , yi ∈ {1, 2, ..., q}
L’espace de représentation est munie d’une distance.
I Lorsque l’espace de représentation des observations est Rd , on
utilise la distance euclidienne.
v
u n
uX 2
d (x, y ) = t (xi − yi )
i=1

I Distance de Manhattan d1
k
X
d1 (x, y ) = |xi − yi |
i=1
Traitement de données 2
Méthodes à mémoire : K-plus proche voisin

k-NN : algorithme
Algorithme de classification
I Données en entrée : jeu de données D, distance d, nombre
de voisins k.
I Début algorithme : pour une nouvelle observation x dont
veut prédire sa variable de sortie, Faire
1. Calculer toutes les distances de cette obsevation x avec les
autres observations du jeu de données D.
2. Retenir les k observations du jeu de données D les proches de
x en utilisant la distance d.
3. Prendre les valeurs de y des k observations retenues
3.1 Régression : calculer la moyenne (médiane) de y retenues,
3.2 classification : calculer le mode de y retenues.
4. Retourner la valeur calculée dans l’étape 3 comme étant la
valeur qui a été prédite par k-NN pour l’observation x.
I Fin algorithme
Traitement de données 2
Méthodes à mémoire : K-plus proche voisin

Choisir k
Le choix de la valeur k à utiliser pour effectuer une prédiction
avec k-NN, varie en fonction du jeu de données.
I Valeur de k faible : l’algorithme va retourner comme variable
cible la plus proche observation.
I Valeur de k plus élevée : l’algorithme va atténuer certains
comportements appris à partir de l’ensemble d’apprentissage.
I k = N, N étant le nombre d’observations, on risque d’avoir du
overfitting.
Remarques
I les classes rares doivent être représentées suffisamment, afin
que l’algorithme ne prédise pas uniquement les classes les plus
communes.
I Taille du jeu de données : le k-nn doit garder en mémoire
l’ensemble des observations pour pouvoir effectuer sa
prédicition.
I Le choix de la méthode de calcul de la distance ainsi que le
nombre de voisins k n’est pas évident.
Traitement de données 2
Séparateur à vaste marge (SVM)

SVM : définitions [?]

Une machine à vecteurs de support ou séparateur à vaste


marge (SVM, introduit en 1992) est un modèle
I d’apprentissage automatique à la fois puissant et polyvalent
pour, capable d’effectuer jeux de données complexes mais de
taille réduite des classifications (données biologiques,
physiques, documents numériques, textures), des régressions,
des détections de données aberrantes, reconnaissance de de
forme (reconnaissance expressions faciales, reconnaissance de
la parole) ...
Vecteurs de support : points qui détermine la frontière de
décision (frontière de la marge).
Traitement de données 2
Séparateur à vaste marge (SVM)

Séparation linéaire
(xi , yi ) , i = 1...n, xi ∈ Rd , yi ∈ {−1, 1}


Lemodèle de classificateur SVM linéaire consiste à trouver


la classe d’une nouvelle instance x en calculant la fonction de
décision : f (x) = ŷ = w T x + b = w1 x1 + ... + wn xn + b
I f (x)  0 : classe (positive) 1 (yi = 1),
I f (x) ≺ 0 : classe (négative) 2 (yi = −1),
I f (x) = 0 : hyperplan (surface) de séparation (marge).
w la normale à l’hyperplan, b le décalage par rapport à
l’origine.
Traitement de données 2
Séparateur à vaste marge (SVM)
Classification SVM linéaire

Classification à Large Marge : Exemple fronière de decision

Frontière de trois classificateurs linéaires (gauche)


I Frontière (ligne tirets) : ne sépare pas correctement les classes.
I Frontières (lignes continus) : si proches des observations qu’ils
ne donneront probablement pas d’aussi bons résultats sur de
nouvelles observations.
Frontière de décision d’un classificateur SVM (droite)
I la ligne continue sépare les deux classes et équidistant que
possible des observations d’entraı̂nement les plus proche.
I Classification à large marge : le classeur ajuste le chemin le
plus large possible (lignes en tirets parallèles) entre les classes.
Traitement de données 2
Séparateur à vaste marge (SVM)
Classification SVM linéaire

Classification à marge souple (ou rigide)

Classification à marge rigide (hard marging


classification)
I Principe : toutes les observations sont en dehors du chemin et
du bon côté.
I Inconvénients : elle fonctionne que si les données sont
linéairement séparables, très sensible aux données aberrantes.
Classification à marge souple (soft marging
classification) : trouver un bon équilibre entre conserver un
chemin aussi large que possible et limiter les empiètements de
marge (nombre d’observation se retrouvant à l’intérieur du
chemin).
Traitement de données 2
Séparateur à vaste marge (SVM)
Classification SVM linéaire

Classification à marge souple (souple)


La classes SVM de Scikit-Learn : contrôle l’équilibre à l’aide du
paramètre C (plus la valeur de C est petite, plus le chemin sera
large, mais plus vous aurez d’empiètements de marge).

Remarque : Les SVM sont sensibles aux différences d’échelle de


variables. Il est ainsi conseillé de normaliser les données avant
traitement.
Traitement de données 2
Séparateur à vaste marge (SVM)
Entraı̂nement d’un SVM linéaire

SVM en ligne
Pour les classificateurs SVM linéaires, une des méthodes
consiste à utiliser une descente de gradient pour la
fonction de coût, dérivée du problème primal.
La fonction coût est
m
1 T X
J (w , b) = w .w + C max(0,1−t (i) (w T .x (i) +b))
2
i=1

I Le premier terme de la fonction coût contraint le modèle à


avoir un petit vecteur de pondération w , ce qui conduira à une
large marge.
I Le deuxième terme correspond au total de tous les
empiètements de marge.
Remarque : Cette démarche converge beaucoup plus
lentement que les méthodes basées sur la programmation
quadratique.
Traitement de données 2
Séparateur à vaste marge (SVM)
Entraı̂nement d’un SVM linéaire

Optimisation quadratique avec constante linéaire


Les problèmes d’optimisation à marge rigide et marge
souple sont tous les deux des problèmes d’optimisation
quadratique avec constante linéaire.
(
min 12 p T .H.p + f T p
avec A.p ≤ b

où p est un vecteur de dimension np (nombre de paramètres),


H une martice de dimension np × np , f est un vecteur de
dimension np , A une matrice de dimension nc × np , b un
vecteur.
A.p ≤ b définit nc contraintes : p T .a(i) ≤ b (i) pour
i = 1, 2...nc , a(i) est le vecteur comportant les éléments de la
ieme ligne de A et ieme élément de b.
Traitement de données 2
Séparateur à vaste marge (SVM)
Entraı̂nement d’un SVM linéaire

Optimisation quadratique et entraı̂nement

Entraı̂ner une classificateur SVM linéaire consiste à


trouver w et b rendant la marge aussi large que possible tout
en évitant les empiétements de marge (marge rigide) ou en les
limitant (marge souple).
Considérons la pente de la fonction de décision kw k
I plus le vecteur de pondérations w est petit, plus la marge est
grande,
I il faut donc minimiser kw k pour obtenir une large marge.
Objectif : minimiser 12 w T .w = 1
2 kw k2 au lieu de kw k
2
I Le résultat sera le même mais 12 kw k possède une dérivée très
simple alors que kw k n’est pas différentiable en w = 0.
I Les algorithmes d’optimisations donnent de meilleurs résultats
sur les fonctions différentiables.
Traitement de données 2
Séparateur à vaste marge (SVM)
Entraı̂nement d’un SVM linéaire

Classication linéaire à marge rigide


Si nous voulons éviter tout empiètement de marge (marge
rigide), alors Il faut une fonction de décision qui soit
supérieur à 1 pour toutes les observations
d’entraı̂nements postives, et inférieure à -1 pour toutes
les observations d’entraı̂nement négatives
 
t (i) w T .x (i) + b ≥ 1

où t (i) = −1 pour les observations négatives et t (i) = 1 pour


les observations positives
Classificateur SVM linéaire à marge rigide
(
minw ,b 21 w T .w
avec t (i) w T .x (i) + b ≥ 1, i = 1...m

Traitement de données 2
Séparateur à vaste marge (SVM)
Entraı̂nement d’un SVM linéaire

Classication linéaire à marge souple


Si nous voulons limiter les empiètements de marge (marge
souple), nous devons introduire une variable ressort (slack
variable) ξ ≥ 0 pour chaque observation
I ξ mesure de combien la ieme observation est autorisée à
empiéter sur la marge,
I Objectif : diminuer autant que possible les variables ressort
pour réduire les empilements de marge, et minimiser 12 w T .w
pour accroı̂tre la marge.
Classificateur SVM linéaire à marge souple
(
minw ,b,ξ 12 w T .w + C m (i)
P
i=1 ξ
avec t (i) w T .x (i) + b ≥ 1 − ξ (i) , ξ (i) ≥ 0, i = 1...m


où l’hyperparamètre C permet de définir un compromis entre


ces objectifs.
Traitement de données 2
Séparateur à vaste marge (SVM)
Entraı̂nement d’un SVM linéaire

SVM linéaire : cas séparable (Problème duale)


Avec les multiplicateurs de Lagrange α, le problème dual
(plus facile à résoudre) devient
 Pn Pn T
maxα i=1 αi − i,j=1 αi αj yi yj xi xj

avec αi ≥ 0, i = 1, ..., nadmissibilité duale
Pn

i=1 αi yi = 0(stationarité)
Les vecteurs support sont ceux pour lesquels αi ≥ 0. La
fonction de décision permettant de classer une nouvelle
observation x est
Xn

f (x) = αi∗ yi xiT x + b ∗
i=1

où xsT w ∗ + b ∗ = 1 valable pour tous les vecteur de support.


Le problème dual permet de gérer les cas non linéaire à


travers l’astuce du noyau contrairement au problème primal.
Traitement de données 2
Séparateur à vaste marge (SVM)
Astuce du noyau

Astuce du noyau
Supposons que vous vouliez appliquer une transformation φ
polynomial du second degré à un jeu d’entraı̂nement
bidimensionnel, puis entraı̂ner un classificateur SVM linéaire sur
le jeu d’entraı̂nement transformé
 √ 
φ (x) = φ ((x1 , x2 )) = x12 , 2x1 x2 , x22

Si a, b est couple de vecteurs bidimensionnels, alors


2
φ (a)T .φ (b) = aT .b : le produit scalaire des vecteurs
transformés est égal au carré du produit scalaire des vecteurs
d’origine.
Astuce du noyau : vous n’avez pas besoin réellement de
tranformer les données
2 d’entraı̂nement. La fonction
K (a, b) = aT .b est appelée noyau polynomial.
Traitement de données 2
Séparateur à vaste marge (SVM)
Astuce du noyau

Astuce du noyau (suite)


En apprentissage automatique, un noyau (kernel, en
anglais) est une fonction permettant de calculer le produit
scalaire ϕ (a)T .φ (b) en utilisant uniquement les vecteurs
d’origine a et b, sans avoir à calculer la transformation φ.
Noyaux courants
I Linéaire : K (a, b) = aT .b,
d
I Polynomial : K (a, b) = γaT .b +n , 
2
I Radial gaussien : K (a, b) = exp −γ ka − bk ,

I sigmoide : K (a, b) = tanh γaT .b + n
Prédiction avec SVM à noyaux
   X  
hŵ ,b̂ φ x (n) = α̂(i) t (i) K x (i) , x (n) + b̂
i=1,α(i) 0

x (n) nouvelle instance, α(i) 6= 0


Traitement de données 2
Séparateur à vaste marge (SVM)
SVM non linéaire

SVM non linéaire : ajout variables polynomiales

Une approche pour gérer les jeux de données non


linéaires consiste à ajouter davantage de variables, par
exemple des variables polynomiales de manière à ce que les
variables qui en résultent soient linéairement séparable.
L’ajout de variables polynomiales est simple à réaliser mais
avec
I un degré polynomial faible, on ne peut pas tirer parti du jeux
de données très complexes,
I un degré polynomial élevé, on obtient un très grand nombre
de variables, ce qui ralentit trop le traitement.
Pour implémenter avec Scikit-Learn, il faut crée un Pipeline
composé d’un transformateur PolynomialFeatures, suivi d’un
StandardScaler et d’un LinearSVC.
Traitement de données 2
Séparateur à vaste marge (SVM)
SVM pour la régression (SVR)

Régression SVM linéaire


Pour faire de la régression avec le SVM, il suffit d’inverser
l’objectif
I au lieu d’essayer d’ajuster le chemin le plus large possible entre
deux classes en limitant les empiètements de marge, la
régression SVM s’efforce d’ajuster autant d’observations que
possible sur le chemin tout en limitant les empiétements de
marge.
La largeur du chemin est contrôlé par un hyperparamètre 
dans ScikitLearn.
# régression SVM
from sklearn . svm import LinearSVR
svm_reg = LinearSVR ( epsilon =1.5)
svm_reg . fit (X , y )
Traitement de données 2
Séparateur à vaste marge (SVM)
SVM pour la régression (SVR)

Régression SVM linéaire

Ajouter davantage d’observations d’entraı̂nement à


l’intérieur de la marge n’affecte pas les prédicitions du
modèle : celui-ci est dit sensensible à  près.
Traitement de données 2
Arbres de décision

Arbre de décision

Arbres de décision
I Les arbres de décision sont
• des algorithmes d’apprentissage automatique polyvalents qui
peuvent effectuer tout à la fois des tâches de classification et
de régression et même des tâches à sorties multiples.
• les composants fondamentaux des forêts aléatoires qui
figurent parmi les puissants algorithmes d’apprentissage
automatique disponible.
I Ils fournissent une représentation hiérarchique de la
structure des données sous forme des séquences de
décision (tests) en vue de la prédiction d’un résultat ou d’une
classe.
Avantages : les arbres de décision ne requièrent que très peu
de préparation de données.
Traitement de données 2
Arbres de décision
Apprentissage avec arbres de décision

Apprentissage avec arbres de décision

Représentation
I Chaque noeud interne correspond à un attribut.
I Chaque noeud teste l’attribut correspondant et génére
plusieurs branches.
• Variable catégorielle : une branche par valeur de l’attribut,
• Variable numérique : test sur valeur.
I Les feuilles spécifient les classes.
Principe de la construction
I L’arbre est construit par partition récursive de la base
d’apprentissage en fonction de la valeur de l’attribut testé à
chaque itération (top-down induction),
I Le processus s’arrête quand les éléments d’un noeud ont la
même valeur pour la variable cible (homogénéité).
Traitement de données 2
Arbres de décision
Apprentissage avec arbres de décision

Arbre de décision : exemple jeu de données Iris


Traitement de données 2
Arbres de décision
Apprentissage avec arbres de décision

Arbre de décision
L’attribut samples d’un noeud compte le nombre
d’observations d’entraı̂nement passées par ce noeud.
L’attribut value d’un noeud indique combien d’observations
d’entraı̂nement de chaque classe sont passées par là : par
exemple le noeud en bas à droite a été atteint par 0 Iris
Sesota, 1 Iris versicolor et 45 Iris viginica.
L’attribut gini d’un noeud mesure son impureté : un noeud
est pur (gini=0) si toutes les observations qui y aboutissent
appartiennent à la même classe. L’impureté de gini vaut
n
X
Gi = 1 − pik
k=1

où pik est le pourcentage d’observations de la classe k parmi


toutes les observations d’entraı̂nement dans le ieme noeud.
Traitement de données 2
Arbres de décision
Apprentissage avec arbres de décision

Frontière de décision

Ligne verticale en trait plein : frontière de décision du


noeud racine (profondeur 0, Longueur des pétales vaut
2.45cm).
I La zone gauche étant pure (comporte que Iris Sesota), elle
peut plus être partagée.
I La zone de droite est impure et le noeud de droite de
profondeur 1 établit la séparation à largeur de pétale égale à
1.75cm (ligne tiret).
Profondeur maximale vaut 2.
Traitement de données 2
Arbres de décision
Apprentissage avec arbres de décision

Algorithme CART
Scikit-Learn utilise l’algorithme d’arbre de classification et
régression (en anglais, Classification and Regression Tree,
CART) pour entraı̂ner (faire pousser) les arbres de décision.
Principe : l’algorithme sépare d’abord le jeu
d’entraı̂nement en deux sous ensembles en utilisant une
seule caractéristique k et un seuil tk .
I CART recherche la paire (k, tk ) qui produit les sous
ensembles les plus purs. La fonction coût de CART pour la
classification est
mgauche mdroite
J (k, tk ) = Ggauche + Gdroite
m m

Ggauche,droite mesure l’impureté du sous ensemble gauche


(droite) ; mgauche,droite : nombre d’observations du sous
ensemble gauche (droite).
I CART applique la même logique aux sous-ensembles
suivants afin de les partager et ainsi de suite récursivement.
Traitement de données 2
Arbres de décision
Apprentissage avec arbres de décision

Algorithme CART
Remarques
I La recherche de l’arbre optimal est un problème NP-complet :
ceci requiert un temps de calcul en O (exp (m)), ce qui rend le
problème insoluble même pour des jeux d’entraı̂nement réduits.
I CART est un algorithme glouton (greedy algortihm)
• s’efforce à faire un partage optimal mais ne vérifie pas s’il
conduit à l’impureté la plus faible possible.
• solution relativement bonne, mais sans garantie que ce soit la
solution optimale.
Autres types de mesure d’impureté : Entropie
I L’entropie d’un jeu de données est nulle lorsque toutes ses
observations appartiennent à la même classe
X
Hi = − pi,k log (pi,k )
k=1;i,k6=0

I Remarque : l’entropie et l’impureté de Gini produisent des


arbres similaires.
Traitement de données 2
Arbres de décision
Apprentissage avec arbres de décision

CART : régression

La principale différence avec l’arbre de classification est au lieu


de prédire une classe dans chaque noeud, il prédit une valeur.
Traitement de données 2
Arbres de décision
Apprentissage avec arbres de décision

Arbres de décision : avantages et inconvénients


Points forts
I Le résultat est facile à conceptualiser et à visualiser,
I Ils nécessitent peu de préparation de données.
I Ils sont capables d’utiliser des données catégorielles et
continues et de gérer des problèmes multi-classe.
Points faibles
I Sur-apprentissage : parfois les arbres générés sont trop
complexes et généralisent mal
• Régularisation : les hyperparamètres de régularisation
dépendent de l’algorithme utilisé, mais vous pouvez au moins
limiter la profondeur maximale.
I Instabilité (variance élévée)
• des changements légères dans les données produisent des
arbres très différents ;
• les méthodes d’ensemble peuvent limiter cette instabilité
en effectuant une moyenne des prédictions par exemple
sur de nombreux arbres.
Traitement de données 2
Méthodes d’ensemble : apprentissage collective

Intelligence collective (apprentissage d’ensemble)


Exemple
I Supposons que vous posiez une question complexe à des
milliers de personnes choisies au hasard et que vous combinez
leurs réponses.
I La synthèse de ces réponses est meilleure que celle d’un
expert.
Apprentissage d’ensemble : si vous aggrégez les prédictions
d’un groupe de prédicteurs (classificateurs, régression), vous
obtiendrez souvent une meilleure prédictions qu’avec le
meilleur des prédicteurs pris endividuellement.
Un groupe de prédicteurs constitue un ensemble.
Exemple de méthode d’apprentissage d’ensemble
I Bagging et pasting,
I Forêt aléatoire,
I Boosting.
Traitement de données 2
Méthodes d’ensemble : apprentissage collective

Bagging et Pasting
Principe : utiliser le même algorithme d’entraı̂nement mais
l’entraı̂ner sur des sous ensembles différents extraits
aléatoirement du jeu d’entraı̂nement.
I Lorsque le tirage s’effectue avec remise, cette méthode
s’appelle bagging (bootstrap aggregating),
I Lorsque le tirage s’effectue sans remise, on l’appelle pasting.
Le bagging et le pasting permettent de prélever plusieurs
fois des observations d’entraı̂nement et de les utiliser
avec plusieurs prédicteurs mais seul le bagging permet de
réutiliser plusieurs fois des observations d’entraı̂nement pour
le même prédicteur.
Une fois que tous les prédicteurs ont été entraı̂nés, l’ensemble
peut effectuer une prédiction pour une nouvelle
observation en aggrégeant les prédictions de tous les
prédicteurs.
I L’aggrégation réduit à la fois le biais et la variance.
Traitement de données 2
Méthodes d’ensemble : apprentissage collective

Forêt aléatoire
Une forêt aéatoire est un ensemble d’arbres de décision,
entraı̂nés en général en utilisant une méthode de bagging
(pasting).
Principe : entraı̂nez un ensemble d’arbre de décision chacun
sur un sous-ensemble aléatoire différent sur un jeu
d’entraı̂nement.
Pour obtenir des prédicteurs, il vous suffit d’obtenir les
prédictions de chacun des arbres puis de choisir la classe
obtenant le plus de vote.
Points forts
I permet de mesurer facilement l’importance relative des
variables
I une variable importante aura tendance, en moyenne, à réduire
l’impureté de Gini qu’une variable moins importante.
Traitement de données 2
Méthodes d’ensemble : apprentissage collective

Forêts aléatoires (Breiman, 2001)


On tire au hasard dans la base d’apprentissage B échantillons
avec remise zi , i = 1, ..., B (n-échantillon),
Pour chaque échantillon i, on tire au hasard q attributs parmi
les p existants et on construit l’arbre CART Gi (x) sur ces
attributs.
RégressionP(agrégation par la moyenne)
G (x) = B1 B i=1 Gi (x),
Classification (agrégation par vote)
G (x) = VoteMajoritaire (G1 (x) , ..., GB (x))
Les arbres sont moins corrélés car
I Ils sont appris sur un ensemble différent des attributs,
I Ils sont construit sur des échantillons différents,
Chaque arbre est petit donc moins performant, mais
l’aggrégation compense pour ce manquement.
Traitement de données 2
Méthodes d’ensemble : apprentissage collective

Boosting
Combine les sorties de plusieurs classifieurs faibles (weak
learners) pour obtenir un résultat plus fort.
Classifieur faible : un comportement de base meilleur que
l’aléatoire (taux d’erreur sous 0.5 pour une classification
binaire).
Idée générale : entraı̂ner des prédicteurs l’un après l’autre,
chacun s’efforçant de corriger son prédecesseur.
Méthodes
I Adaboost (Adaptative boosting) : pour un nouveau
prédicteur, l’un des moyens de corriger son prédécesseur
consiste à préter plus d’attention aux observations que ces
prédecesseurs a sous ajoustées.
I Gradient boosting : ajuste un nouveau predicteur aux erreurs
résiduelles du prédicteur précédent.
Traitement de données 2
Conclusion

Conclusion
Le k-NN est très simple à appréhender principalement grâce
au fait qu’il n’a pas besoin de modèle pour fonctionner mais le
choix de la distance, de la taille du jeu d’entraı̂nement et du
nombre de voisin doit être effectué avec soin.
Un SVM est à la fois puissant et polyvalent pour, capable
d’effectuer jeux de données complexes mais de taille réduite
des classifications , des régressions, des détections de
données aberrantes, reconnaissance de de forme.
Arbres de décision : le résultat est facile à conceptualiser
et à visualiser et nécessitent peu de préparation de
données mais souffrent souvent du surapprentissage.
Apprentissage d’ensemble : si vous aggrégez les prédictions
d’un groupe de prédicteurs (classificateurs, régression), vous
obtiendrez souvent une meilleure prédictions qu’avec le
meilleur des prédicteurs pris endividuellement.
Traitement de données 2
Conclusion

Références

Aurélien Géron. Hand on machine learning with scikit-learn


and tensorflow : concepts, tools and techniques to build
intelligents systèmes. 2017 O’Reilly. 760p
Marin Ferecatu et Michel Crucianu, Apprentissage, réseaux de
neurones et modèles graphiques : machines à vecteurs
surpport (SVM). Note de cours Conservatoire Nationale des
art et métiers (CNAM), Paris, France.

Vous aimerez peut-être aussi