Vous êtes sur la page 1sur 10

Leçon5

Méthode des plus proches voisins


KNN : k Nearest Neighbours,

1. Objectifs
2. Introduction
3. Méthode du plus proche voisin
4. Méthode des plus proches voisins
5. Notion de distance
6. Distance et similarité
1. Objectifs

— Implémenter l’algorithme des k plus proches voisins


— Calculer distances et similarités pour différents types de représentations des données
— Expliquer pourquoi l’algorithme des k plus proches voisins est susceptible de ne pas marcher en haute
dimension.

Rym Besrour 2
2. Introduction

• kNN est un algorithme de prédiction non paramétrique conceptuellement très simple, puisqu'aucune
estimation de paramètres n'est nécessaire comme pour la régression linéaire.

• Cet algorithme, dit des plus proches voisins, se base sur le principe de « qui se ressemble s’assemble », et
utilise les étiquettes des exemples les plus proches pour prendre une décision.

• On dispose de données d'apprentissage (training data) pour lesquelles chaque observation dispose d'une
classe y.

• L'idée de l'algorithme des kNN est pour une nouvelle observation de prédire les k observations lui étant les
plus similaires dans les données d'apprentissage.

• ...et utiliser ces observations pour classer l'observation dans une classe

Quand on parle de voisin cela implique la notion de distance ou de dissimilarité.

Rym Besrour 3
3. Méthode du plus proche voisin

Etant donné un jeu 𝒟 = 𝑥𝑖 , 𝑦𝑖 𝑖=1,…,𝑛 de 𝑛 observations étiquetées, et une distance 𝑑 sur 𝒳, on appelle
algorithme du plus proche voisin l’algorithme consistant à étiqueter une nouvelle observation 𝑥 par
l’étiquette du point du jeu d’entrainement qui en est la plus proche.
Cet algorithme s’applique aussi bien à un problème de classification qu’à un problème de régression.

La méthode du plus proche voisin a le défaut d’être très


sensible au bruit : si une observation est mal étiquetée, ou mal
positionnée, tous les points dans sa cellule (sa classe) seront
mal étiquetés.

Pour rendre cette méthode plus robuste, on se propose de


combiner les « opinions » de plusieurs voisins de l’observation
que l’on cherche à étiqueter.

Rym Besrour 4
4. Méthode des plus proches voisins

Etant donné un jeu 𝒟 = 𝑥𝑖 , 𝑦𝑖 𝑖=1,…,𝑛 de 𝑛 observations étiquetées, une distance 𝑑 sur 𝒳, et un


hyperparamètre 𝑘 ∈ ℕ∗ , on appelle algorithme des k plus proches voisins (KNN : k nearest neighbors),
l’algorithme consistant à étiqueter une nouvelle observation 𝑥 en fonction des étiquettes des 𝑘 points du
jeu d’entrainement dont elle est la plus proche.

En notant 𝒩𝑘 (𝑥) l’ensemble des 𝑘 plus proches voisins de 𝑥 dans 𝒟 :


• Pour un problème de classification, on applique le vote de la majorité, et 𝑥 prend l’étiquette
majoritaire parmi celles de ses 𝑘 plus proches voisins :
𝒇 𝒙 = 𝐚𝐫𝐠𝐦𝐚𝐱 𝒊:𝒙𝒊 ∈𝓝𝒌 (𝒙) 𝜹(𝒚𝒊 , 𝒄)
𝒄

• Pour un problème de régression, 𝑥 prend comme étiquette la moyenne des étiquettes de ses 𝑘 plus
proches voisins :
𝟏
𝒇 𝒙 = 𝒌 𝒊:𝒙𝒊 ∈𝓝𝒌(𝒙) 𝒚𝒊

Rym Besrour 5
4. Méthode des plus proches voisins

Début Algorithme
Données en entrée :
• Un ensemble de données 𝐷
• Une fonction de définition distance 𝑑
• Un nombre entier 𝐾

Pour une nouvelle observation 𝑋 dont on veut prédire sa variable de sortie 𝑦 Faire :
1. Calculer toutes les distances de cette observation 𝑋 avec les autres observations du
jeu de données 𝐷

2. retenir les 𝐾 observations du jeu de données 𝐷 les proches de 𝑋 en utilisation la


fonction de calcul de distance 𝑑

3. prendre les valeurs de 𝑦 des 𝐾 observations retenues :


Si on effectue une régression, calculer la moyenne (ou la médiane) de 𝑦
retenues
Si on effectue une classification , calculer le mode de 𝑦 retenues

4. Retourner la valeur calculée dans l’étape 3 comme étant la valeur qui a été prédite
par K-NN pour l’observation 𝑋.

Fin Algorithme
6
4. Méthode des plus proches voisins

Comment choisir la bonne valeur k ?

Pour sélectionner la valeur de k, nous exécutons plusieurs fois l’algorithme KNN avec différentes valeurs de k.
Puis nous choisissons le k qui réduit le nombre d’erreurs rencontrées tout en maintenant la capacité de
l’algorithme à effectuer des prédictions avec précision lorsqu’il reçoit des données nouvelles (non vues
auparavant).

1. Lorsque nous diminuons la valeur de k à 1, nos prédictions deviennent moins stables.


2. Inversement, à mesure que nous augmentons la valeur de k, nos prédictions deviennent de plus en plus
stables en raison du vote à la majorité ou de la moyenne. On est donc plus susceptible de faire des
prédictions plus précises (jusqu’à un certain point). En contre partie, nous commençons à être sujet à nombre
croissant d’erreurs.
3. Dans les cas où nous votons à la majorité (par exemple, en choisissant le mode dans un problème de
classification) parmi les étiquettes, nous choisissons généralement un nombre impair pour k (pour avoir un
départage en cas d’égalité).

7
4. Méthode des plus proches voisins

Avantages :

1. L’algorithme est super simple et facile à mettre en œuvre.


2. Il n’est pas nécessaire de construire un modèle, d’ajuster plusieurs paramètres ou de faire des
hypothèses supplémentaires.
3. L’algorithme est polyvalent. Il peut être utilisé pour la classification, la régression et la recherche
d’informations.

Inconvénients :

1. L’algorithme ralentit considérablement à mesure que le nombre d’observations et/ou de variables


dépendantes/indépendantes augmente. En effet, l’algorithme parcourt l’ensemble des observations pour
calculer chaque distance.

8
5. Distances et similarités

Distance
Définition d’une distance : Etant donné un ensemble 𝜒, on appelle distance sur 𝜒 toute fonction 𝑑 :
𝜒 × 𝜒 ⟶ ℝ vérifiant les trois propriétés suivantes :
1. Séparation : ∀ 𝑢, 𝑣 ∈ 𝜒 × 𝜒, 𝑑 𝑢, 𝑣 = 0 ⇔ 𝑢 = 𝑣
2. Symétrie : ∀ 𝑢, 𝑣 ∈ 𝜒 × 𝜒, 𝑑 𝑢, 𝑣 = 𝑑 𝑣, 𝑢
3. Inégalité triangulaire : ∀ 𝑢, 𝑣, 𝑡 ∈ 𝜒 3 , 𝑑 𝑢, 𝑣 ≤ 𝑑 𝑢, 𝑡 + 𝑑 𝑡, 𝑣

9
5. Distances et similarités

Rym Besrour 10

Vous aimerez peut-être aussi