Vous êtes sur la page 1sur 17

Méthode des k plus proches voisins(kPP)

k-Nearest Neighbors (KNN)

AROUI TAREK kPP 1

Contenu du cours

Enjeu de la classification supervisée

Méthode des k plus proches voisins (kNN pour k-Nearest Neighbors)

Exemple KNN

KNN avec validation croisée

Notions de rejet (Ambiguïté/distance)

Classification non exclusif

AROUI TAREK kPP 2


Enjeu de la classification supervisée

On considère un ensemble d’apprentissage constitué par n observations {w1,…, wn }


Chaque individu est distinguable par les valeurs de p caractères X1; ,,,;Xp
Les données sont étiquetées de telle sorte que chacune des observations
appartient à une des m classes connues
{C1,…, Cm } est l'ensemble des M classes connues.

On peut présentées les données sous la forme d’un tableau


X1 …… Xp Etiquette de la classe
d’appartenance(Ci avec
i ∈ {1…m})
W1 x11 … x1p Ci
. . . .
. . . .
. . . .
Wn xn1 … xnp Cj
AROUI TAREK k plus proches voisins(kPP) 3

Enjeu de la classification supervisée

Objectif : On s’intéresse à un nouvel individu w* de la population dont on connaît les


valeurs x1 ,…, xp de X1 ,…,Xp ; sans avoir connaissance de son groupe d’appartenance.

Partant des données, l’objectif est de déterminer à quel groupe l’individu w* a le plus
de chances d’appartenir.

Pour déterminer la classe d’appartenance de w* . Il y a plusieurs


méthodes. Parmi elles, il y a la méthode des K plus proches voisins
(KNN pour K Nearest Neighbors),

AROUI TAREK k plus proches voisins(kPP) 4


Contenu du cours

Enjeu de la classification supervisée

Méthode des k plus proches voisins (kNN pour k Nearest Neighbors)

Exemple KNN

KNN avec validation croisée

Notions de rejet (Ambiguïté/distance)

Classification non exclusif

AROUI TAREK ACP 5

Méthode des K plus proches voisins (KNN pour K-Nearest Neighbors)

Soient d une distance et K ∈ {1,…,n}


Les K plus proches voisins de w* sont les K individus de Γ= {w1,…, wn }
qui ressemblent le plus à w* .
Ainsi, en notant Uk l’ensemble de ces K voisins, pour tout wi ∈Uk et tout
wj ∈ Γ -Uk, on a:

d(w*,wi) < d(w*,wj)

La méthode des K plus proches voisins propose d’affecter w* au groupe


auquel la majorité de ses K voisins appartiennent.
AROUI TAREK k plus proches voisins(kPP) 6
Méthode des K plus proches voisins (KNN pour K-Nearest Neighbors)

Illustration de la méthode des K plus proches voisins avec K = 3

AROUI TAREK K plus proches voisins(KPP) 7

Méthode des K plus proches voisins (KNN pour K-Nearest Neighbors)

Illustration de la méthode des K plus proches voisins avec différentes valeurs de K

K=1, l’individu bleu est classifié comme


membre de la classe rouge

K=3, l’individu bleu est classifié comme


membre de la classe rouge

K=5, l’individu bleu est classifié comme


membre de la classe verte

AROUI TAREK k plus proches voisins(kPP) 8


Méthode des K plus proches voisins (KNN pour k-Nearest Neighbors)

Choix de la distance dans la règle des KNN

La distance euclidienne, la distance de Minkowski, …

La distance de Mahanalobis où la matrice variance-covariance totale Σ est utilisée

( )( )
d 2 X ,Y = X − Y T Σ −1 X − Y ( )

L’introduction de la matrice de variance-covariance dans cette expression signifie que


cette mesure prend en compte la dispersion de l’ensemble d’apprentissage,

AROUI TAREK K plus proches voisins(KPP) 9

Contenu du cours

Enjeu de la classification supervisée

Méthode des K plus proches voisins (kNN pour k-Nearest Neighbors)

Exemple KNN

KNN avec validation croisée

Notions de rejet (Ambiguïté/distance)

Classification non exclusif

AROUI TAREK ACP 10


Exemple KNN

Dans une étude industrielle, on a étudié 2 caractères X1 et X2 sur 6 individus


{w1,…,w6}. Les données recueillies sont :

• Déterminer le groupe d’appartenance d’un individu w* vérifiant X1 = 4 et X2 = 4


avec la méthode des K plus proches voisins (KNN) pour K = 3.

AROUI TAREK k plus proches voisins(kPP) 11

Exemple KNN

Les distances euclidiennes entre w*, dont les coordonnées sont (4,4), et les autres
sont :

Les K = 3 individus les plus de proche de w* sont : w3 , w4 et w6 . Le premier


appartient au groupe A et les deux autres au groupe B. Par conséquent, w* appartient
au groupe B

AROUI TAREK K plus proches voisins(KPP) 12


Contenu du cours

Enjeu de la classification supervisée

Méthode des k plus proches voisins (kNN pour k-Nearest Neighbors)

Exemple KNN

KNN avec validation croisée

Notions de rejet (Ambiguïté/distance)

Classification non exclusif

AROUI TAREK ACP 13

KNN avec validation croisée

Qu’est ce que la validation croisée ?


La validation croisée (ou cross-validation en anglais) est une méthode qui permet
d'évaluer les performances d’un modèle.

Jeux d’entraînement et de test: C’est la validation non croisée ou « hold-out validation »,


on divise le jeu de données en deux parties : un jeu d'entraînement et un jeu de test dont on
connait parfaitement leur groupe d’affectation .

AROUI TAREK k plus proches voisins(kPP) 14


KNN avec validation croisée

La performance du modèle est donné par le nombre d’individus mal affectés sur le
nombre total d’individus.
Inconvénient: si nous avions par hasard créé un jeu de test vraiment difficile — ou
vraiment facile — à prédire ?
o Nous aurions des performances très faibles — ou très élevées —
o Nous aurions pensé avoir un très mauvais modèle — ou un très bon modèle —

AROUI TAREK K plus proches voisins(KPP) 15

KNN avec validation croisée

Validation croisée ou « cross-validation »: on divise les données d’apprentissage en k


parties (ou « blocs »), puis on sélectionne un des k échantillons comme ensemble de
validation pendant que les autres (k-1) parties constituent l'ensemble d'apprentissage.

Itération 1
o En blanc, l’ensemble de validation
o Le reste constituent l’ensemble
Itération 2
d’apprentissage

.
o Nous obtenons k performances
.
o Ainsi, la moyenne et l’écart type des
.
performances sera calculer

Itération k o Inconvénient : méthode lente !


AROUI TAREK K plus proches voisins(KPP) 16
KNN avec validation croisée

leave-one-out cross-validation (LOOCV):il s'agit d'un cas particulier de la validation


croisée à k blocs où k=n. C'est-à-dire qu'à chaque itération d'apprentissage-validation,
l'apprentissage se fait sur (n-1) observations et la validation sur l'unique observation restante

Itération 1

Itération 2

.
.
.

Itération n
AROUI TAREK k plus proches voisins(kPP) 17

KNN avec validation croisée

Gestion des bases de données non-équilibrées :


Stratification« stratified cross validation »
o Dans le cas d’un problème de classification, la stratification consiste à s'assurer que la
répartition des classes soit la même dans tous les ensembles d'apprentissage et de
validation utilisés.

o il s'agit simplement de répartir les classes de la même manière d'un bloc à un autre

AROUI TAREK k plus proches voisins(kPP) 18


KNN avec validation croisée

On peut aussi évaluer la qualité de l’algorithme des K plus proches voisins à l’aide
d’une validation croisée.

Par exemple, cela consiste à appliquer la méthode du leave-one-out cross-


validation sur le jeu de données dont on connait parfaitement leur groupe
d’affectation et de faire l’algorithme des K plus proches voisins sur chacun d’eux.

On peut ainsi voir le nombre de fois où l’algorithme se trompe.

Taux d’erreur de classification :


Il est donné par le nombre d’individus mal affectés sur le nombre total d’individus.
Plus le taux est proche de 0, meilleur est la qualité prédictive du modèle.
On convient que la qualité de la classification est mauvaise lorsque le taux de
classification < 0,5.
AROUI TAREK k plus proches voisins(kPP) 19

Contenu du cours

Enjeu de la classification supervisée

Méthode des k plus proches voisins (kNN pour k-Nearest Neighbors)

Exemple KNN

KNN avec validation croisée

Notions de rejet (Ambiguïté/distance)

Classification non exclusif

AROUI TAREK ACP 20


Notions de rejet

Il existe deux grandes notions de rejet :

Le rejet en ambiguïté qui concerne une nouvelle observation


située entre deux ou plusieurs classes
Le rejet en distance qui correspond à une nouvelle observation
située à une distance éloignée des classes

Il semble intuitivement plus sûr de ne pas prendre de décision sur


l’affectation de w* .
Par contre le classifieur indiquera à l’utilisateur qu’il y a rejet
(ambiguïté/distance) sur la décision.
AROUI TAREK k plus proches voisins(kPP) 21

Notions de rejet d’ambiguïté

Le rejet d'ambiguïté est introduite dans la règle des KNN en fixant un


nombre minimal, K', de voisins que doit avoir le vecteur w* dans la
classe Ci la mieux représentée
w* est associé à la classe Ci si K’ au moins parmi ses K plus proches voisins appartiennent à
Ci
 w* → Ci si K i = max K r ≥ K '
r =1.. m

 w* → Cambg si K i = max K r < K '
r =1..m

avec
o K le nombre de plus proches voisins du vecteur w*,
o Ki le nombre de plus proches voisins de w* (parmi K) dans la classe Ci

Les observations rejetées en ambiguïté seront affectées à une nouvelle classe fictive Cambg
(classe de rejet en ambiguïté).
AROUI TAREK k plus proches voisins(kPP) 22
Notions de rejet de distance

Le rejet en distance est basé sur la notion de distance aux classes, qui doit être ‘grande’.
Il s’agit généralement d’observations résultant de l’apparition de nouvelles classes
L’idée la plus simple consiste à effectuer un seuillage de distance. L’observation w* est
rejetée si la distance à ses K ppv est supérieure à un seuil Ts-dist.
Le seuil de distance est comparé par exemple :
o à la distance moyenne de w* à ses K plus proches voisins

K
1
w* → Cdist si
K
∑ d (w , y ) > T
j =1
* j s − dist

o ou à la distance entre w* et le centre de gravité de sa classe d’affectation GK:

w* → C dist si d ( w* , G K ) > Ts −dist


AROUI TAREK K plus proches voisins(KPP) 23

Notions de rejet de distance

Calcul du seuil de rejet en distance Ts-dist

Le seuil de rejet en distance Ts-dist d’une classe peut être son diamètre. Pour cela,
il est nécessaire de calculer les distances entre les vecteurs de celle-ci et son
centre de gravité

Ts − dist = β . max [d ( wi , G K )] avec β = 2 par exemple


i =1..nK

Où:
nk, le nombre de vecteurs de la classe Ck
wi , le i ième vecteur de la classe Ck
β marge de sécurité des incertitudes sur la dimension exacte de la classe mais
aussi sur le bruit des données
AROUI TAREK k plus proches voisins(kPP) 24
La règle des K-ppv incluant les deux options de rejet

w* → Cdist si d ( w* , Gc ) > Ts − dist


w → C si d ( w* , Gc ) < Ts − dist et k i = max k r < k '
 * ambg
r =1.. m
w → C si d ( w* , Gc ) < Ts − dist et ki = max k r ≥ k '
 * i
r =1.. m

Exemple des différentes classifications possibles réalisées par la règle de


décision associée aux options de rejet.

(a) Affectation à la classe C2


(b) rejet en ambiguité
(c) Rejet en distance

AROUI TAREK k plus proches voisins(kPP) 25

Exemple : Notions de rejet de distance

w* =(4,4)

AROUI TAREK k plus proches voisins(kPP) 26


Exemple : Notions de rejet de distance

o distance moyenne de w* à ses K plus proches voisins

K
1
∑ d (w* , y j ) =
1
(2.82 + 2.82 + 2.67) = 2.776
K j =1 3
o distance entre w* et le centre de gravité de sa classe d’affectation
GB:(classe B) 6 + 5.5 + 6.5 6 + 7 + 5
GB = ( , ) = (6,6)
3 3

d ( w* , G B ) = (4 − 6)2 + (4 − 6 )2 = 2.828
AROUI TAREK k plus proches voisins(kPP) 27

Exemple : Notions de rejet de distance

Ts-dist? Ts − dist = β . max[d ( wi , G B ) ] avec β = 2 par exemple


i =1..nB

d ( w4 , G B ) = (6 − 6 )2 + (6 − 6)2 =0

d ( w5 , G B ) = (5.5 − 6 )2 + (7 − 6)2 = 1.118

d ( w6 , GB ) = (6.5 − 6 )2 + (5 − 6 )2 = 1.118

Donc
Ts − dist = β . max[d ( wi , G B ) ]= 2 *1.118 = 2.236 avec β = 2
i =1..nB

AROUI TAREK k plus proches voisins(kPP) 28


Exemple : Notions de rejet de distance

K
1
∑ d ( w* , y j ) =
1
(2.82 + 2.82 + 2.67 ) = 2.776 > β .Ts −dist = 2.236
K j =1 3

d ( w* , G B ) = (4 − 6)2 + (4 − 6 )2 = 2.828 > β .Ts −dist = 2.236

Conclusion: Rejet de w* =(4,4) dans les deux cas !!

AROUI TAREK k plus proches voisins(kPP) 29

Contenu du cours

Enjeu de la classification supervisée

Méthode des k plus proches voisins (kNN pour k Nearest Neighbors)

Exemple KNN

KNN avec validation croisée

Notions de rejet (Ambiguïté/distance)

Classification non exclusif

AROUI TAREK ACP 30


Classification non exclusif

La règle des K-ppv classique présentée affecte donc une nouvelle observation à
la classe majoritairement représentée parmi ses plus proches voisins.

utiliser une classification exclusive renseigne sur l’appartenance d’une


observation à une classe, mais ne donne aucune indication sur sa localisation dans
la zone de la classe concernée.
AROUI TAREK k plus proches voisins(kPP) 31

Fonction d’appartenance : évaluation du degré


d’appartenance d’une observation aux classes définies

Fonction d’appartenance
dans le cas exclusive et
non exclusive

AROUI TAREK k plus proches voisins(kPP) 32


Fonction d’appartenance : évaluation du degré
d’appartenance d’une observation aux classes définies

Plusieurs solutions sont envisageables pour la fonction d’appartenance .


Une des solutions possibles, se base sur l’utilisation d’une fonction
gaussienne centrée sur le centre de gravité de la classe.

AROUI TAREK k plus proches voisins(kPP) 33

Vous aimerez peut-être aussi