Vous êtes sur la page 1sur 48

Chapitre II :

La Classification

Mme. Khaoula Tbarki

Année universitaire 2019/2020


Chapitre II : La Classification

II.1 Définition

II.1.1 La Classification

➢ La sortie souhaitée est une étiquette discrète.


➢ La réponse à un problème relève d’un ensemble limité de résultats possibles.

II.1.2 La Régression

➢ Sorties de type continue.


➢ La réponse à une question est représentée par une quantité qui peut être déterminée
de manière flexible en fonction des entrées du modèle.

Mme. Khaoula. Tbarki


Année universitaire 2019/2020
Prix

size

Mme. Khaoula. Tbarki


Année universitaire 2019/2020
Chapitre II : La Classification

II.1 Définition
Exemple de classification :
Classification de type des plantes (Setosa, Versicolor, Virginica) en utilisant les
caractéristiques suivantes : longueur et largeur des sépales et pétales.

Mme. Khaoula. Tbarki


Année universitaire 2019/2020
Chapitre II : La Classification

II.1 Définition
Exemple de régression :
Prévision de la température en utilisant les conditions météorologiques enregistrées par
une station météorologique.

Mme. Khaoula. Tbarki


Année universitaire 2019/2020
Chapitre II : La Classification

II.1 Définition

II.1.3 La régression logistique

➢La méthode de référence pour la classification binaire.

➢Elle donne un résultat binaire discret 0 ou 1.

➢Le résultat est soit :


•Une classe cible (Target : 1).

•Une classe aberrante (Outlier : 0).

Mme. Khaoula. Tbarki


Année universitaire 2019/2020
Chapitre II : La Classification

II.1 Définition
Exemple de la régression logistique
Prévision de diabète en utilisant les caractéristiques suivantes : Grossesse, Glucose, Tension,
Épaisseur de peau, Insuline, IMC, Fonction de Pedigree du Diabète et l’Age.

Mme. Khaoula. Tbarki


Année universitaire 2019/2020
Chapitre II : La Classification
II.2 Classification
Classification consiste à prédire les classes de données à partir d'une base
d'apprentissage étiquetée.

Apprentissage : Former le modèle de classification.


Test : Tester la performance du système.

Mme. Khaoula. Tbarki


Année universitaire 2019/2020
Chapitre II : La Classification
II.2 Classification
Classification consiste à prédire les classes de données à partir d'une base
d'apprentissage étiquetée.

Couleur Couleur Forme de Forme de la Etiquette


cheveux Yeux visage bouche
Marron Noir rectangulai Un arc de Catégorie 1
re Cupidon en
V

Mme. Khaoula. Tbarki


Année universitaire 2019/2020
Chapitre II : La Classification
II.2 Classification
Classification consiste à prédire les classes de données à partir d'une base
d'apprentissage étiquetée.
Base de données

Base de train : Base de test:


2/3 de la base 1/3 de la base

Ax+b Pre=90%
A=3 B=2
Mme. Khaoula. Tbarki
Année universitaire 2019/2020
Chapitre II : La Classification
II.2 Classification Base de données

Base de train : Base de test:


2/3 de la base 1/3 de la base

Nouvelle base

Construction du modèle
Validation ou
déploiement du modèle
Mme. Khaoula. Tbarki
Année universitaire 2019/2020
Chapitre II : Classification linéaire et régression
II.2 Classification

Classification

Mono-classe : une seule


Multi classe : trois Binaire : deux
classe utilisée dans
classes ou plus classes
l’apprentissage

✓L’apprentissage :
✓L’apprentissage : ✓L’apprentissage :
plusieurs classes
2 classes 1 classe
✓Test : plusieurs
✓Test : 2 classes ✓Test : 2 classes
classes
Mme. Khaoula. Tbarki
Année universitaire 2019/2020
Chapitre II : La Classification
II.2 Classification
Base de données
Cas multi-classe

Base de train : Base de test:


2/3 de la base 1/3 de la base

Mme. Khaoula. Tbarki


Année universitaire 2019/2020
Chapitre II : La Classification
II.2 Classification

Cas classification Mon-classe


Base de données
Classe 1 : Classe 2 :
1500 475
Outlier Target
Base de Train = 2/3 Base de test =1/3 de la classe+
de la classe Cible 1/3 de la classe Outlier.

1/3 Bleu 150


Toute la classe rouge 1500
Auc=98% 75%
Mme. Khaoula. Tbarki
Année universitaire 2019/2020
Chapitre II : La Classification
II.2 Classification

B :reel R Predicted
R R
R R
R R
R R
B R

Mme. Khaoula. Tbarki


Année universitaire 2019/2020
Chapitre II : La Classification

II.3 Machine à vecteurs supports (Support Vector Machine (SVM))

II.3.1 SVM multi classe

❖Un contre tous (One Against All/ One Versus All) :

➢ Cette méthode utilise un classifier binaire pour la séparation entre les classes.

➢ Consiste à décomposer le problème en un ensemble de sous-problèmes binaires et à


construire indépendamment un SVM binaire pour chacun d’entre eux.

➢Chaque modèle est entraîné à séparer les données d’une classe cible (+1), de celles de
toutes les autres classes qui seront étiquetées -1 ou 0 (classe aberrante).

➢Limite : déséquilibre entre les données de la classe cible et la classe aberrante.

Mme. Khaoula. Tbarki


Année universitaire 2019/2020
II.3.1 SVM multi classe

Itération Train Classe


aberrante

1 C1 (1) 1000 C2+C3 (0)


2000
2 C2 (1) C1+C3 (0)
3 C3 (1) C1+C2 (0)

Itération Train Test

1 2/3 (C1)+2/3(C2+C3) 1/3 (C1)+1/3(C2+C3)


2 2/3(C2)+2/3(C1+C3) 1/3(C2)+1/3(C1+C3)
3 2/3(C3)+2/3(C1+C2) 1/3(C3)+1/3(C1+C2)
Mme. Khaoula. Tbarki
Année universitaire 2019/2020
Chapitre II : La Classification
II.3 Machine à vecteurs supports (Support Vector Machine (SVM))

II.3.1 SVM multi classe

❖Un contre un (One Against One/ One Versus One) :

➢ Utilise k (k-1)/2 classifieurs pour un problème à k classes, où chaque SVM est entraîné
sur deux classes en Ci (classe cible) et Cj (classe aberrante) seulement.

➢Complexité de calcul est moins que la méthode un contre tous.

Mme. Khaoula. Tbarki


Année universitaire 2019/2020
II.3.1 SVM multi classe

Itération Classe Classe


Cible aberrante

1 C1 C2
2 C1 C3
3 C2 C3

Itération Train Test

1 2/3 (C1)+2/3(C2) 1/3 (C1)+1/3(C2)


2 2/3(C1)+2/3(C3) 1/3(C1)+1/3(C3)
3 2/3(C2)+2/3(C3) 1/3(C2)+1/3(C3)
Mme. Khaoula. Tbarki
Année universitaire 2019/2020
Chapitre II : La Classification

II.3 Machine à vecteurs supports (Support Vector Machine (SVM))


Itération Classe Classe
II.3.1 SVM multi classe Cible aberrante

1 C1 C2+C3
2 C2 C1+C3
3 C3 C1+C2

Itération Classe Classe


Cible aberrante

1 C1 C2
2 C1 C3
3 C2 C1

Mme. Khaoula. Tbarki


Année universitaire 2019/2020
Chapitre II : La Classification
II.3 Machine à vecteurs supports (Support Vector Machine (SVM))

II.3.1 SVM multi classe

Mme. Khaoula. Tbarki


Année universitaire 2019/2020
Chapitre II : La Classification
II.3 Machine à vecteurs supports (Support Vector Machine (SVM))

II.3.1 SVM binaire


Le problème d'optimisation primal du SVM binaire dans l'espace d'origine de données
est exprimé comme suit: (training step)

 1 T N

min w w + C  i ,
 w ,b 2 i =1 Eq.I.1
 s.c y ( w T x + b)  1 −  ;   0  i = 1...N .
 i i i i

xi  1,..., N  est l'observation (vecteur d'entrée) de la classe yi  −1,1

w est le vecteur des paramètres (ou poids)


C est une constante.

i variables de relaxation « Slack variables », matérialise l’erreur de classement


pour chaque observation Mme. Khaoula. Tbarki
Chapitre II : La Classification

II.3 Machine à vecteurs supports (Support Vector Machine (SVM))

II.3.1 SVM binaire


 1 T N

min w w + C  i ,
 w ,b 2 i =1 Eq.I.1
 s.c y ( w T x + b)  1 −  ;   0  i = 1...N .
 i i i i

Mme. Khaoula. Tbarki


Année universitaire 2019/2020
Chapitre II : La Classification
II.3 Machine à vecteurs supports (Support Vector Machine (SVM))
 1 T N
II.3.1 SVM binaire min w w + C  i ,
 w ,b 2 i =1
 s.c y ( w T x + b)  1 −  ;   0  i = 1...N .
 i i i i

Mme. Khaoula. Tbarki


Année universitaire 2019/2020
Chapitre II : La Classification

II.3 Machine à vecteurs supports (Support Vector Machine (SVM))

II.3.1 SVM binaire

 1 T N

min w w + C  i ,
 w ,b 2 i =1
 s.c y ( w T x + b)  1 −  ;   0  i = 1...N .
 i i i i

Mme. Khaoula. Tbarki


Année universitaire 2019/2020
Chapitre II : La Classification
II.3 Machine à vecteurs supports (Support Vector Machine (SVM))

II.3.1 SVM binaire

Class -

Class +

Mme. Khaoula. Tbarki


Chapitre II : La Classification

II.3 Machine à vecteurs supports (Support Vector Machine (SVM))

II.3.1 SVM binaire

 1 T N

min w w + C  i ,
 w ,b 2 i =1
 s.c y ( w T x + b)  1 −  ;   0  i = 1...N .
 i i i i

Le Lagrangien L

Eq.I.2

Mme. Khaoula. Tbarki


Année universitaire 2019/2020
Chapitre II : La Classification
II.3 Machine à vecteurs supports (Support Vector Machine (SVM))

II.3.1 SVM binaire

Eq.I.3

Eq.I.4

Eq.I.5
Mme. Khaoula. Tbarki
Chapitre II : La Classification

II.3 Machine à vecteurs supports (Support Vector Machine (SVM))

II.3.1 SVM binaire

En remplaçant les équations (Eq. I.3 et I.5) dans l'Eq. I.2, le problème dual obtenu
s'exprime comme suivant :

 N
1 N N
max 
  i =1
 i −   i j yi y j xi x j ,
2 i =1 j =1
T

 
Eq. I.6

s.t 0    C and
 i 
i =1
yi i = 0,  i =1,...,N.

Année universitaire 2019/2020 Mme. Khaoula. Tbarki


Chapitre II : La Classification

II.3 Machine à vecteurs supports (Support Vector Machine (SVM))

II.3.1 SVM binaire


Séparation linéaire (le plus simple) : permet de trouver facilement le séparateur
linéaire.

Mme. Khaoula. Tbarki


Année universitaire 2019/2020
Chapitre II : La Classification

II.3 Machine à vecteurs supports (Support Vector Machine (SVM))

II.3.1 SVM binaire

Séparation non linéaire : Cas des applications réelles: l’idée est de changer l’espace original
des données en un autre espace en utilisant la fonction de mapping ( x)

Ce nouvel espace est appelé espace de caractéristiques ou le "feature space" ou encore


espace étendu dans le quel les données sont linéairement séparables.

Mme. Khaoula. Tbarki


Année universitaire 2019/2020
Chapitre II : La Classification

II.3 Machine à vecteurs supports (Support Vector Machine (SVM))

II.3.1 SVM binaire

Le problème d'optimisation primal dans l'espace étendu


 1 T
min w w + C  i ,
 w,b 2 i =1
Eq. I.7

s.c y ( w T ( x ) + b)  1 −  ;   0 i = 1....
 i i i i

Mme. Khaoula. Tbarki


Année universitaire 2019/2020
Chapitre II : La Classification

II.3 Machine à vecteurs supports (Support Vector Machine (SVM))

II.3.1 SVM binaire

Le problème d'optimisation dual dans l'espace étendu :

 N
1 N N
max 
  i =1
 i −   i j yi y j K SVM ( xi , x j ),
2 i =1 j =1 Eq. I.8
 
s.c 0    C and
 i 
i =1
yi i = 0,  i =1,...,N.

K SVM = ( xi ) ( x j )
T
La fonction noyau (kernel function).

Mme. Khaoula. Tbarki


Année universitaire 2019/2020
Chapitre II : La Classification

II.3 Machine à vecteurs supports (Support Vector Machine (SVM))

II.3.1 SVM binaire

❖Kernel function

Noyau linéaire : K SVM −linéaire = x x j


T
i

Noyau polynomial : K SVM − Polynomial = ( x x + r )


T
i j
d

Noyau sigmoïde : K SVM − Sigmoide = tanh( xiT x j + r )


2
xi − x j
−( )
Noyau "Radial Basic Function" (RBF) : K SVM − RBF = e 2 2

Mme. Khaoula. Tbarki


Année universitaire 2019/2020
Chapitre II : La Classification

II.3 Machine à vecteurs supports (Support Vector Machine (SVM))

II.3.1 SVM binaire

❖Fonction de décision: étape de test

Etape d'apprentissage permet de construire le modèle de classification, qui entraine la


machine à reconnaitre.

Etape de test: identification des données de test.

Eq. I.9
S
f ( z ) = w  ( z ) + b =   j y j K SVM ( x j , z ) + b
T

j =1

Mme. Khaoula. Tbarki


Année universitaire 2019/2020
Avantage de SVM

Convexe Concave

N’est pas Convexe


Mme. Khaoula. Tbarki
Année universitaire 2019/2020
Avantage de SVM
Système

SVM

Mme. Khaoula. Tbarki


Année universitaire 2019/2020
Chapitre II : La Classification
II.3 Machine à vecteurs supports (Support Vector Machine (SVM))

II.3.1 SVM Mono-classe

❖Le problème primal d'optimisation :

 1 T 1 N
 wmin w w−+ 
 N i =1
i ,
  0,  2 Eq. I.10
s.c w T x   −  ;   0 i = 1...N .
 i i i

  ( 0,1 est le paramètre qui contrôle la fraction des valeurs aberrantes et celle des vecteurs
de support (SVs),

 est une constante qui représente la pente à l'origine pour la fonction y.


1 si w T xi −   0
y=
−1 si non .
Eq. I.11
Mme. Khaoula. Tbarki
Année universitaire 2019/2020
Chapitre II : La Classification
II.3 Machine à vecteurs supports (Support Vector Machine (SVM))

II.3.1 SVM binaire

 1 T N

min W ( ,  ) =   OSVM  +  (1 −   i ),
  2 i =1
 N Eq. I.13
s.c 0    1
et   i = 1.
 i
N i =1

S Eq. I.14
f ( z ) =   j K OSVM ( x j , z ) + 
i =1

Mme. Khaoula. Tbarki


Année universitaire 2019/2020
Chapitre II : La Classification

II.4 Les protocoles expérimentaux

La technique de validation croisée :

Exhaustive cross-validation:
• Leave-p-out cross-validation.

• Leave-one-out cross-validation.

Non-exhaustive cross-validation:
• k-fold cross-validation (k=5, k=10) (partition aléatoire).

• Holdout method (d0,d1) (d0>d1).

Mme. Khaoula. Tbarki


Année universitaire 2019/2020
Chapitre II : La Classification

II.4 Les protocoles expérimentaux

Real Label Predict Label Résultat de


comparaison
P P TP : True Positive
N N TN : True Negative
P N FN : False Negative
N P FP : False Positive
P P TP
N P FP
P N FN

Mme. Khaoula. Tbarki


Année universitaire 2019/2020
Chapitre II : La Classification

II.4 Les protocoles expérimentaux


Real Label Predict Label Résultat de
comparaison
P P TP : True Positive
N N TN : True Negative
P N FN : False Negative
N P PF : False Positive

FPR=100-TNR

FNR=100-TPR
Mme. Khaoula. Tbarki
Année universitaire 2019/2020
Chapitre II : La Classification

II.4 Les protocoles expérimentaux


Predict

C1 C2 C3

C1 70 30 0

Real C2 5 80 15
C3 0 0 100

C1 100
C2 100
C3 100

Mme. Khaoula. Tbarki


Année universitaire 2019/2020
Chapitre II : La Classification

II.4 Les protocoles expérimentaux

❖ Matrice de confusion

Mme. Khaoula. Tbarki


Année universitaire 2019/2020
Chapitre II : La Classification

II.4 Les protocoles expérimentaux

❖ Courbes de Caractéristiques Opérationnelles de Réception (Receiver Operating


Characteristic : ROC)

➢ Une représentation graphique de la probabilité de la détection correcte


correspondant au taux de correcte positif (True Positif Rate : TPR) en
fonction de la probabilité de fausse alarme (PFA) ou taux de faux positif
(False Positif Rate : FPR).

➢ Cas de classification binaire.

Mme. Khaoula. Tbarki


Année universitaire 2019/2020
Chapitre II : La Classification

II.4 Les protocoles expérimentaux

❖ L’Air de l'espace de la courbe ROC (Area Under the Curve : AUC)


➢ L’aire délimitée par la courbe ROC, l’axe des abscisses et l’axe de droite
TPR=1.

Mme. Khaoula. Tbarki


Année universitaire 2019/2020
Chapitre II : La Classification

II.4 Les protocoles expérimentaux

❖ Accuracy
TP + TN
Accuracy = Eq. I.1
N

❖ Précision
TP
Précision = Eq. I.2
TP + FP
❖ Recall

TP
Recall =
TP + FN Eq. I.3

Mme. Khaoula. Tbarki


Année universitaire 2018/2019
Chapitre II : La Classification

II.4 Les protocoles expérimentaux

❖ F1-score Eq. I.4

Mme. Khaoula. Tbarki


Année universitaire 2019/2020

Vous aimerez peut-être aussi