Chapitre VI KPP-2023

Méthode des k plus proches voisins(kPP)
k-Nearest Neighbors (KNN)
AROUI TAREK kPP 1
Contenu du cours
Enjeu de la classification supervisée
Méthode des k plus proches voisins (kNN pour k-Nearest Neighbors)
Exemple KNN
KNN avec validation croisée
Notions de rejet (Ambiguïté/distance)
Classification non exclusif
AROUI TAREK kPP 2

On considère un ensemble d’apprentissage constitué par n observations {w1,…, wn }

Chaque individu est distinguable par les valeurs de p caractères X1; ,,,;Xp
Les données sont étiquetées de telle sorte que chacune des observations
appartient à une des m classes connues
{C1,…, Cm } est l'ensemble des M classes connues.
On peut présentées les données sous la forme d’un tableau

X1 …… Xp Etiquette de la classe
d’appartenance(Ci avec
i ∈ {1…m})
W1 x11 … x1p Ci
. . . .
. . . .
. . . .
Wn xn1 … xnp Cj
AROUI TAREK k plus proches voisins(kPP) 3
Objectif : On s’intéresse à un nouvel individu w* de la population dont on connaît les

valeurs x1 ,…, xp de X1 ,…,Xp ; sans avoir connaissance de son groupe d’appartenance.
Partant des données, l’objectif est de déterminer à quel groupe l’individu w* a le plus
de chances d’appartenir.
Pour déterminer la classe d’appartenance de w* . Il y a plusieurs

méthodes. Parmi elles, il y a la méthode des K plus proches voisins
(KNN pour K Nearest Neighbors),

Contenu du cours
Méthode des k plus proches voisins (kNN pour k Nearest Neighbors)
Exemple KNN
AROUI TAREK ACP 5
Méthode des K plus proches voisins (KNN pour K-Nearest Neighbors)
Soient d une distance et K ∈ {1,…,n}

Les K plus proches voisins de w* sont les K individus de Γ= {w1,…, wn }
qui ressemblent le plus à w* .
Ainsi, en notant Uk l’ensemble de ces K voisins, pour tout wi ∈Uk et tout
wj ∈ Γ -Uk, on a:
d(w*,wi) < d(w*,wj)
La méthode des K plus proches voisins propose d’affecter w* au groupe

auquel la majorité de ses K voisins appartiennent.
Illustration de la méthode des K plus proches voisins avec K = 3
AROUI TAREK K plus proches voisins(KPP) 7
Illustration de la méthode des K plus proches voisins avec différentes valeurs de K
K=1, l’individu bleu est classifié comme

membre de la classe rouge

membre de la classe rouge

membre de la classe verte

Méthode des K plus proches voisins (KNN pour k-Nearest Neighbors)
Choix de la distance dans la règle des KNN
La distance euclidienne, la distance de Minkowski, …
La distance de Mahanalobis où la matrice variance-covariance totale Σ est utilisée
( )( )
d 2 X ,Y = X − Y T Σ −1 X − Y ( )
L’introduction de la matrice de variance-covariance dans cette expression signifie que

cette mesure prend en compte la dispersion de l’ensemble d’apprentissage,
Contenu du cours
Méthode des K plus proches voisins (kNN pour k-Nearest Neighbors)
Exemple KNN
AROUI TAREK ACP 10

Exemple KNN
Dans une étude industrielle, on a étudié 2 caractères X1 et X2 sur 6 individus

{w1,…,w6}. Les données recueillies sont :
• Déterminer le groupe d’appartenance d’un individu w* vérifiant X1 = 4 et X2 = 4

avec la méthode des K plus proches voisins (KNN) pour K = 3.
Exemple KNN
Les distances euclidiennes entre w*, dont les coordonnées sont (4,4), et les autres
sont :
Les K = 3 individus les plus de proche de w* sont : w3 , w4 et w6 . Le premier

appartient au groupe A et les deux autres au groupe B. Par conséquent, w* appartient
au groupe B

Contenu du cours
Exemple KNN
AROUI TAREK ACP 13
Qu’est ce que la validation croisée ?

La validation croisée (ou cross-validation en anglais) est une méthode qui permet
d'évaluer les performances d’un modèle.
Jeux d’entraînement et de test: C’est la validation non croisée ou « hold-out validation »,

on divise le jeu de données en deux parties : un jeu d'entraînement et un jeu de test dont on
connait parfaitement leur groupe d’affectation .

La performance du modèle est donné par le nombre d’individus mal affectés sur le
nombre total d’individus.
Inconvénient: si nous avions par hasard créé un jeu de test vraiment difficile — ou
vraiment facile — à prédire ?
o Nous aurions des performances très faibles — ou très élevées —
o Nous aurions pensé avoir un très mauvais modèle — ou un très bon modèle —
Validation croisée ou « cross-validation »: on divise les données d’apprentissage en k

parties (ou « blocs »), puis on sélectionne un des k échantillons comme ensemble de
validation pendant que les autres (k-1) parties constituent l'ensemble d'apprentissage.
Itération 1
o En blanc, l’ensemble de validation
o Le reste constituent l’ensemble
Itération 2
d’apprentissage
.
o Nous obtenons k performances
.
o Ainsi, la moyenne et l’écart type des
.
performances sera calculer
Itération k o Inconvénient : méthode lente !

leave-one-out cross-validation (LOOCV):il s'agit d'un cas particulier de la validation

croisée à k blocs où k=n. C'est-à-dire qu'à chaque itération d'apprentissage-validation,
l'apprentissage se fait sur (n-1) observations et la validation sur l'unique observation restante
Itération 1
Itération 2
.
.
.
Itération n
Gestion des bases de données non-équilibrées :

Stratification« stratified cross validation »
o Dans le cas d’un problème de classification, la stratification consiste à s'assurer que la
répartition des classes soit la même dans tous les ensembles d'apprentissage et de
validation utilisés.
o il s'agit simplement de répartir les classes de la même manière d'un bloc à un autre

On peut aussi évaluer la qualité de l’algorithme des K plus proches voisins à l’aide
d’une validation croisée.
Par exemple, cela consiste à appliquer la méthode du leave-one-out cross-

validation sur le jeu de données dont on connait parfaitement leur groupe
d’affectation et de faire l’algorithme des K plus proches voisins sur chacun d’eux.
On peut ainsi voir le nombre de fois où l’algorithme se trompe.
Taux d’erreur de classification :

Il est donné par le nombre d’individus mal affectés sur le nombre total d’individus.
Plus le taux est proche de 0, meilleur est la qualité prédictive du modèle.
On convient que la qualité de la classification est mauvaise lorsque le taux de
classification < 0,5.
Contenu du cours
Exemple KNN
AROUI TAREK ACP 20

Notions de rejet
Il existe deux grandes notions de rejet :
Le rejet en ambiguïté qui concerne une nouvelle observation

située entre deux ou plusieurs classes
Le rejet en distance qui correspond à une nouvelle observation
située à une distance éloignée des classes
Il semble intuitivement plus sûr de ne pas prendre de décision sur

l’affectation de w* .
Par contre le classifieur indiquera à l’utilisateur qu’il y a rejet
(ambiguïté/distance) sur la décision.
Notions de rejet d’ambiguïté
Le rejet d'ambiguïté est introduite dans la règle des KNN en fixant un

nombre minimal, K', de voisins que doit avoir le vecteur w* dans la
classe Ci la mieux représentée
w* est associé à la classe Ci si K’ au moins parmi ses K plus proches voisins appartiennent à
Ci
 w* → Ci si K i = max K r ≥ K '
r =1.. m

 w* → Cambg si K i = max K r < K '
r =1..m
avec
o K le nombre de plus proches voisins du vecteur w*,
o Ki le nombre de plus proches voisins de w* (parmi K) dans la classe Ci
Les observations rejetées en ambiguïté seront affectées à une nouvelle classe fictive Cambg
(classe de rejet en ambiguïté).
Notions de rejet de distance
Le rejet en distance est basé sur la notion de distance aux classes, qui doit être ‘grande’.
Il s’agit généralement d’observations résultant de l’apparition de nouvelles classes
L’idée la plus simple consiste à effectuer un seuillage de distance. L’observation w* est
rejetée si la distance à ses K ppv est supérieure à un seuil Ts-dist.
Le seuil de distance est comparé par exemple :
o à la distance moyenne de w* à ses K plus proches voisins
K
1
w* → Cdist si
K
∑ d (w , y ) > T
j =1
* j s − dist
o ou à la distance entre w* et le centre de gravité de sa classe d’affectation GK:
w* → C dist si d ( w* , G K ) > Ts −dist

Notions de rejet de distance
Calcul du seuil de rejet en distance Ts-dist
Le seuil de rejet en distance Ts-dist d’une classe peut être son diamètre. Pour cela,
il est nécessaire de calculer les distances entre les vecteurs de celle-ci et son
centre de gravité
Ts − dist = β . max [d ( wi , G K )] avec β = 2 par exemple

i =1..nK
Où:
nk, le nombre de vecteurs de la classe Ck
wi , le i ième vecteur de la classe Ck
β marge de sécurité des incertitudes sur la dimension exacte de la classe mais
aussi sur le bruit des données
La règle des K-ppv incluant les deux options de rejet
w* → Cdist si d ( w* , Gc ) > Ts − dist

w → C si d ( w* , Gc ) < Ts − dist et k i = max k r < k '
 * ambg
r =1.. m
w → C si d ( w* , Gc ) < Ts − dist et ki = max k r ≥ k '
 * i
r =1.. m
Exemple des différentes classifications possibles réalisées par la règle de

décision associée aux options de rejet.
(a) Affectation à la classe C2

(b) rejet en ambiguité
(c) Rejet en distance
Exemple : Notions de rejet de distance
w* =(4,4)

o distance moyenne de w* à ses K plus proches voisins
K
1
∑ d (w* , y j ) =
1
(2.82 + 2.82 + 2.67) = 2.776
K j =1 3
o distance entre w* et le centre de gravité de sa classe d’affectation
GB:(classe B) 6 + 5.5 + 6.5 6 + 7 + 5
GB = ( , ) = (6,6)
3 3
d ( w* , G B ) = (4 − 6)2 + (4 − 6 )2 = 2.828
Ts-dist? Ts − dist = β . max[d ( wi , G B ) ] avec β = 2 par exemple

i =1..nB
d ( w4 , G B ) = (6 − 6 )2 + (6 − 6)2 =0
d ( w5 , G B ) = (5.5 − 6 )2 + (7 − 6)2 = 1.118
d ( w6 , GB ) = (6.5 − 6 )2 + (5 − 6 )2 = 1.118
Donc
Ts − dist = β . max[d ( wi , G B ) ]= 2 *1.118 = 2.236 avec β = 2
i =1..nB

K
1
∑ d ( w* , y j ) =
1
(2.82 + 2.82 + 2.67 ) = 2.776 > β .Ts −dist = 2.236
K j =1 3
d ( w* , G B ) = (4 − 6)2 + (4 − 6 )2 = 2.828 > β .Ts −dist = 2.236
Conclusion: Rejet de w* =(4,4) dans les deux cas !!
Contenu du cours
Méthode des k plus proches voisins (kNN pour k Nearest Neighbors)
Exemple KNN
AROUI TAREK ACP 30

La règle des K-ppv classique présentée affecte donc une nouvelle observation à
la classe majoritairement représentée parmi ses plus proches voisins.
utiliser une classification exclusive renseigne sur l’appartenance d’une

observation à une classe, mais ne donne aucune indication sur sa localisation dans
la zone de la classe concernée.
Fonction d’appartenance : évaluation du degré

d’appartenance d’une observation aux classes définies
Fonction d’appartenance
dans le cas exclusive et
non exclusive

Fonction d’appartenance : évaluation du degré
d’appartenance d’une observation aux classes définies
Plusieurs solutions sont envisageables pour la fonction d’appartenance .

Une des solutions possibles, se base sur l’utilisation d’une fonction
gaussienne centrée sur le centre de gravité de la classe.

Chapitre VI KPP-2023

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Chapitre VI KPP-2023

Transféré par

Droits d'auteur :

Formats disponibles

Méthode des k plus proches voisins(kPP)

k-Nearest Neighbors (KNN)

AROUI TAREK kPP 1

Enjeu de la classification supervisée

Méthode des k plus proches voisins (kNN pour k-Nearest Neighbors)

KNN avec validation croisée

Notions de rejet (Ambiguïté/distance)

Classification non exclusif

AROUI TAREK kPP 2

On considère un ensemble d’apprentissage constitué par n observations {w1,…, wn }

On peut présentées les données sous la forme d’un tableau

Enjeu de la classification supervisée

Objectif : On s’intéresse à un nouvel individu w* de la population dont on connaît les

Pour déterminer la classe d’appartenance de w* . Il y a plusieurs

AROUI TAREK k plus proches voisins(kPP) 4

Enjeu de la classification supervisée

Méthode des k plus proches voisins (kNN pour k Nearest Neighbors)

KNN avec validation croisée

Notions de rejet (Ambiguïté/distance)

Classification non exclusif

AROUI TAREK ACP 5

Méthode des K plus proches voisins (KNN pour K-Nearest Neighbors)

Soient d une distance et K ∈ {1,…,n}

d(w*,wi) < d(w*,wj)

La méthode des K plus proches voisins propose d’affecter w* au groupe

Illustration de la méthode des K plus proches voisins avec K = 3

AROUI TAREK K plus proches voisins(KPP) 7

Méthode des K plus proches voisins (KNN pour K-Nearest Neighbors)

Illustration de la méthode des K plus proches voisins avec différentes valeurs de K

K=1, l’individu bleu est classifié comme

K=3, l’individu bleu est classifié comme

K=5, l’individu bleu est classifié comme

AROUI TAREK k plus proches voisins(kPP) 8

Choix de la distance dans la règle des KNN

La distance euclidienne, la distance de Minkowski, …

La distance de Mahanalobis où la matrice variance-covariance totale Σ est utilisée

L’introduction de la matrice de variance-covariance dans cette expression signifie que

AROUI TAREK K plus proches voisins(KPP) 9

Enjeu de la classification supervisée

Méthode des K plus proches voisins (kNN pour k-Nearest Neighbors)

KNN avec validation croisée

Notions de rejet (Ambiguïté/distance)

Classification non exclusif

AROUI TAREK ACP 10

Dans une étude industrielle, on a étudié 2 caractères X1 et X2 sur 6 individus

• Déterminer le groupe d’appartenance d’un individu w* vérifiant X1 = 4 et X2 = 4

AROUI TAREK k plus proches voisins(kPP) 11

Les K = 3 individus les plus de proche de w* sont : w3 , w4 et w6 . Le premier

AROUI TAREK K plus proches voisins(KPP) 12

Enjeu de la classification supervisée

Méthode des k plus proches voisins (kNN pour k-Nearest Neighbors)

KNN avec validation croisée

Notions de rejet (Ambiguïté/distance)

Classification non exclusif

AROUI TAREK ACP 13

KNN avec validation croisée

Qu’est ce que la validation croisée ?

Jeux d’entraînement et de test: C’est la validation non croisée ou « hold-out validation »,

AROUI TAREK k plus proches voisins(kPP) 14

AROUI TAREK K plus proches voisins(KPP) 15

KNN avec validation croisée

Validation croisée ou « cross-validation »: on divise les données d’apprentissage en k

Itération k o Inconvénient : méthode lente !

leave-one-out cross-validation (LOOCV):il s'agit d'un cas particulier de la validation

d(w,wi) < d(w,wj)