Vous êtes sur la page 1sur 16

Classification supervisée

par l’algorithme kNN

Mme Sofia Ben Jebara, Mme Amel Benazza

1 1
Chaîne de résolution d’un problème ML

Acquisition Pré- Calcul ML


traitement d’attributs

Sources Données Bloc Données Modèle


brutes optionnel brutes ou
prétraitées
ou attributs

Variables

2 2
Calcul d’attributs

• Objectif
– Représenter les mesures brutes de manière compacte par
des attributs/descripteurs (features)
• Expertise du domaine des mesures exigée
• Propriétés attendues de bonnes caractéristiques
– Informatives pertinentes
– Non redondantes
– Faciliter la tâche d’apprentissage
– Améliorer la capacité de généralisation et d’interprétabilité

3 3
Variables

•Par convention, le terme générique variables désignera


– les mesures brutes, acquises
– les mesures prétraitées
–ou les caractéristiques (features) définies à partir des mesures
•Dimension = nombre de variables = p
•Taille de l’échantillon = nombre d’observations, d’instances = n
• Données : matrice n × p de variables quantitatives ou n vecteurs de
dimension p

4 4
La classification en général (1)

•Recherche d’une typologie ou segmentation => partition ou répartition


des individus en Nc classes homogènes ou catégories

•Donc, affecter tout individu X (vecteur de p variables) à une des Nc


classes

• Formellement, définir une fonction C d’étiquettage/classification

C: p [1,Nc] Règle de décision


X Y

étiquette, label
5 5
La classification en général (2)

• Règle de décision frontières de séparation entre les n donnés


d’apprentissage
• Plusieurs frontières possibles => plusieurs méthodes possibles
• Une fois frontière déterminée, phase test classer une nouvelle donnée

Individu-test X (hors de l’ensemble d’apprentissage) à classer

6 6
La classification supervisée

• Une règle de décision en partant de quoi ?


Mode supervisé : un ensemble de n vecteurs X1,…,Xn déjà étiquetés
=> données d’apprentissage annotées (ou vérité-terrain, ground
truth)

•Formellement, ensemble de couples ={(X1, Y1),…,(Xn, Yn)}



– Xi vecteur de variables de dimension p (exemples ou instances)
– Yi vrai label de Xi de étiquette d’appartenance à une classe de
l’instance Xi

7 7
Méthodes de classifications supervisées

• k-plus proches voisins (ou k-nearest neighbors ou k-NN)

• Classifieur bayésien naïf (naive Bayesian classifier)

• Séparateurs à Vastes Marges (Support Vector Margin ou SVM)

• Classification par réseaux de neurones (Artificial Neural Networks)

• Classification par réseaux profonds de neurone (Deep Neural Networks)

8 8
Algorithme k-NN

Phase d’apprentissage
Stockage des individus et de leurs étiquettes pour l’ensemble
d’apprentissage
=> Apprentissage paresseux (lazy training) !
Phase de test d’un individu test X
1. Choix d’un entier k
2. Choix d’une distance d entre les individus
3. Calcul les n distances d(Xi, X) pour i=1, …, n
4. Retenir les k vecteurs d’apprentissage X(1) , …, X(k) les plus
proches selon d
5. Affecter à X l'étiquette qui est la plus fréquente parmi
les k observations les plus proches (vote majoritaire)
6. Si régression, affecter en sortie la moyenne des k observations
les plus proches 9 9
Illustration

p=2 , Nc =2 k=3 => majorité des


3-plus proches
voisins dans B
=>classe B

k=6 => classe A

Résultats dépendent
de la structure des
données
d’apprentissage et de
k

10 10
Sec.14.3
Propriétés (1)

• Distance :
– Si variables continues, distance de Mahanalobis
– Si variables discrètes, distance de Hamming
– …
• Facile à implementer
• Coût calculatoire élevé pendant le test (calcul de n
distances/requête)
– o(p) calcul d’une distance
– o(np) pour trouver un plus proche voisin
– o(knp) pour trouver k plus proche voisin
• Pas d’apprentissage à proprement parler pour trouver un modèle
• S’adapte facilement quand le nombre Nc de classes augmente

11 11
Sec.14.3
Propriétés (2)

• Robuste au bruit dans les données d’apprentissage :


Si k=1 => affectation à la classe de l’observation la plus proche de X mais pb si
plus proche voisin bruité

Vecteur à classer

Tous les vecteurs de la zone Tous les vecteurs de la zone


ombrée en bleu affectés ombrée en bleu affectés
incorrectement à correctement à
12 12
la classe bleue la classe rouge
Sec.14.3
Propriétés (3)

Une autre illustration

Observations aberrantes

13 13
Sec.14.3
Choix du paramètre k

• k impair pour éviter les ambigüités (souvent, 3 ou 5)


• Règle empirique k=sqrt(n)
• Augmenter k positif mais si k trop élevé perte de la localisation de l’information

14 14
Sec.14.3
Ajustement de k par validation croisée (1)

• Possibilité d’ajuster k par validation croisée (cross-validation)


Pour chaque valeur de k candidate
– Diviser aléatoirement les observations d’entraînement en L sous-
ensembles
– Premier sous-ensemble pour le test et les L -1 autres à
l’entraînement
– Calculer l’erreur de classification (ou régression)
– Répéter la procédure sur le 2ème, .., L-ème sous-ensemble
– Moyenne les erreurs de classification (ou régression) pour la valeur
courante de k
– Recommencer pour la valeur suivante de k
Retenir la valeur de k donnant la classification (regression) la plus
précise
15 15
Sec.14.3
Ajustement de k par validation croisée (1)

Illustration de la validation croisée (L=5)

16 16

Vous aimerez peut-être aussi