Vous êtes sur la page 1sur 9

K-NN

Partie III
K Nearest Neighbours (KNN) ou K Plus Proches Voisins (KPPV)
Data Mining
Se basent sur “Dis moi qui sont tes voisins, je te dirais qui tu es!”

KNN • Les techniques d’apprentissage cherchent habituellement à


généraliser une hypothèse à partir d’une banque d’exemples.

• KNN on ne construit pas d’hypothèse.

• On emmagasine les N exemples.

• Lorsqu’on a une nouvelle instance à prédire

On prend la décision à partir de k exemples similaires.


1
K-NN
Partie III
▪ K Nearest Neighbours (KNN) ou K Plus Proches Voisins (KPPV)
Data Mining ▪ Ou Lazy learning (apprentissage parésseux) car il n’apprend rien
pendant la phase d’entraînement
KNN ▪ Ou apprentissage à base d’exemples étant donné que le modèle
mémorise les observations de l’ensemble d’apprentissage pour la
classification des données de l’ensemble de test.

2
K-NN (classification)
Partie III

Data Mining

KNN

▪ Trois clients (John, Rachael et Norah) sont assez similaires à David, avec une distance
d'environ 15.
▪ Les deux autres clients (Ruth et Jefferson) sont beaucoup plus éloignés.

3
K-NN
Partie III
Estimation de probabilité
Data Mining ▪ Il est important non seulement de classer un nouvel exemple,
mais aussi d'estimer sa probabilité - de lui attribuer un score, car
un score donne plus d'informations qu'une simple décision Oui /
KNN Non.
▪ La classification du voisin le plus proche peut être utilisée pour ce
faire assez facilement.
▪ Pour David ses voisins les plus proches (Rachael, John et Norah)
ont des classes de Non, Oui et Oui, respectivement.
▪ Si nous notons pour la classe Oui, de sorte que Oui = 1 et Non = 0,
nous pouvons faire la moyenne de ces résultats en un score de
2/3 pour David

4
Les étapes du K-NN
Partie III Pour une nouvelle observation X on veut prédire sa variable de sortie
(cible) y pour un ensemble de données D et pour un nombre d'entiers K selon une
distance d
Les étapes de l'algorithme sont les suivantes:
Data Mining 1. Calculer toutes les distances de cette observation X avec les autres
observations du jeu de données D.

KNN 2. Retenir les K observations du jeu de données D les proches de X en utilisant


la fonction de distance d.

3. Prendre les valeurs de y des K observations retenues :


• Si on effectue une régression, calculer la moyenne (ou la médiane) de y
retenues;
• Si on effectue une classification , calculer le mode de retenues.

4. Retourner la valeur calculée dans l’étape 3 comme étant la valeur qui a été
prédite par K-NN pour l’observation.
5
Exemples KNN (classification)
Partie III
Les applications du KNN couvrent de nombreux domaines:
Data Mining • Détection de fraude. Les nouveaux cas de fraude sont susceptibles d'être similaires
aux cas connus. Le KNN peut les trouver et les signaler pour complément d'enquête.
• Prédiction de réponse client. Les prochains clients susceptibles de répondre à une
offre sont probablement similaires aux précédents clients qui ont répondu. Le
KNN KNN peut facilement identifier les prochains clients potentiels.
• Traitements médicaux. Le traitement le plus efficace pour un patient donné est
probablement le traitement qui a donné les meilleurs résultats pour des patients
similaires. LE KNN peut trouver le traitement qui produit le meilleur résultat.
• Classement des réponses. Les réponses en texte libre, telles que celles du
formulaire de recensement ou les plaintes émanant de clients, doivent être
classées dans un ensemble fixe de codes. Le KNN peut traiter le texte libre et
attribuer les codes.

6
Partie III Choix de K

Data Mining • Afin de choisir le K le plus approprié aux données, l'algorithme KNN
est exécuté plusieurs fois avec différentes valeurs de K.
KNN • La valeur de K à retenir correspond à celle qui réduit le nombre
d'erreurs tout en maintenant la capacité de l'algorithme à faire de
bonnes prédictions.

7
Partie III Choix de K
Problème de Classification
Data Mining • Nous utilisons la validation croisée en choisissant K qui donne la
meilleure accuracy.
KNN
L’accuracy la plus
élevée
correspond à
K=35.

8
Partie III Choix de K
Problème de Régression RMSE (ou le MSE) de la prédiction.
Data Mining

KNN
Le RMSE
minimum est
donné par le
modèle pour
K=25

Vous aimerez peut-être aussi