Académique Documents
Professionnel Documents
Culture Documents
Contenu du cours
Exemple KNN
Partant des données, l’objectif est de déterminer à quel groupe l’individu w* a le plus
de chances d’appartenir.
Exemple KNN
( )( )
d 2 X ,Y = X − Y T Σ −1 X − Y ( )
Contenu du cours
Exemple KNN
Exemple KNN
Les distances euclidiennes entre w*, dont les coordonnées sont (4,4), et les autres
sont :
Exemple KNN
La performance du modèle est donné par le nombre d’individus mal affectés sur le
nombre total d’individus.
Inconvénient: si nous avions par hasard créé un jeu de test vraiment difficile — ou
vraiment facile — à prédire ?
o Nous aurions des performances très faibles — ou très élevées —
o Nous aurions pensé avoir un très mauvais modèle — ou un très bon modèle —
Itération 1
o En blanc, l’ensemble de validation
o Le reste constituent l’ensemble
Itération 2
d’apprentissage
.
o Nous obtenons k performances
.
o Ainsi, la moyenne et l’écart type des
.
performances sera calculer
Itération 1
Itération 2
.
.
.
Itération n
AROUI TAREK k plus proches voisins(kPP) 17
o il s'agit simplement de répartir les classes de la même manière d'un bloc à un autre
On peut aussi évaluer la qualité de l’algorithme des K plus proches voisins à l’aide
d’une validation croisée.
Contenu du cours
Exemple KNN
avec
o K le nombre de plus proches voisins du vecteur w*,
o Ki le nombre de plus proches voisins de w* (parmi K) dans la classe Ci
Les observations rejetées en ambiguïté seront affectées à une nouvelle classe fictive Cambg
(classe de rejet en ambiguïté).
AROUI TAREK k plus proches voisins(kPP) 22
Notions de rejet de distance
Le rejet en distance est basé sur la notion de distance aux classes, qui doit être ‘grande’.
Il s’agit généralement d’observations résultant de l’apparition de nouvelles classes
L’idée la plus simple consiste à effectuer un seuillage de distance. L’observation w* est
rejetée si la distance à ses K ppv est supérieure à un seuil Ts-dist.
Le seuil de distance est comparé par exemple :
o à la distance moyenne de w* à ses K plus proches voisins
K
1
w* → Cdist si
K
∑ d (w , y ) > T
j =1
* j s − dist
Le seuil de rejet en distance Ts-dist d’une classe peut être son diamètre. Pour cela,
il est nécessaire de calculer les distances entre les vecteurs de celle-ci et son
centre de gravité
Où:
nk, le nombre de vecteurs de la classe Ck
wi , le i ième vecteur de la classe Ck
β marge de sécurité des incertitudes sur la dimension exacte de la classe mais
aussi sur le bruit des données
AROUI TAREK k plus proches voisins(kPP) 24
La règle des K-ppv incluant les deux options de rejet
w* =(4,4)
K
1
∑ d (w* , y j ) =
1
(2.82 + 2.82 + 2.67) = 2.776
K j =1 3
o distance entre w* et le centre de gravité de sa classe d’affectation
GB:(classe B) 6 + 5.5 + 6.5 6 + 7 + 5
GB = ( , ) = (6,6)
3 3
d ( w* , G B ) = (4 − 6)2 + (4 − 6 )2 = 2.828
AROUI TAREK k plus proches voisins(kPP) 27
d ( w4 , G B ) = (6 − 6 )2 + (6 − 6)2 =0
d ( w6 , GB ) = (6.5 − 6 )2 + (5 − 6 )2 = 1.118
Donc
Ts − dist = β . max[d ( wi , G B ) ]= 2 *1.118 = 2.236 avec β = 2
i =1..nB
K
1
∑ d ( w* , y j ) =
1
(2.82 + 2.82 + 2.67 ) = 2.776 > β .Ts −dist = 2.236
K j =1 3
Contenu du cours
Exemple KNN
La règle des K-ppv classique présentée affecte donc une nouvelle observation à
la classe majoritairement représentée parmi ses plus proches voisins.
Fonction d’appartenance
dans le cas exclusive et
non exclusive