1 1
Chaîne de résolution d’un problème ML
Variables
2 2
Calcul d’attributs
• Objectif
– Représenter les mesures brutes de manière compacte par
des attributs/descripteurs (features)
• Expertise du domaine des mesures exigée
• Propriétés attendues de bonnes caractéristiques
– Informatives pertinentes
– Non redondantes
– Faciliter la tâche d’apprentissage
– Améliorer la capacité de généralisation et d’interprétabilité
3 3
Variables
4 4
La classification en général (1)
étiquette, label
5 5
La classification en général (2)
6 6
La classification supervisée
7 7
Méthodes de classifications supervisées
8 8
Algorithme k-NN
Phase d’apprentissage
Stockage des individus et de leurs étiquettes pour l’ensemble
d’apprentissage
=> Apprentissage paresseux (lazy training) !
Phase de test d’un individu test X
1. Choix d’un entier k
2. Choix d’une distance d entre les individus
3. Calcul les n distances d(Xi, X) pour i=1, …, n
4. Retenir les k vecteurs d’apprentissage X(1) , …, X(k) les plus
proches selon d
5. Affecter à X l'étiquette qui est la plus fréquente parmi
les k observations les plus proches (vote majoritaire)
6. Si régression, affecter en sortie la moyenne des k observations
les plus proches 9 9
Illustration
Résultats dépendent
de la structure des
données
d’apprentissage et de
k
10 10
Sec.14.3
Propriétés (1)
• Distance :
– Si variables continues, distance de Mahanalobis
– Si variables discrètes, distance de Hamming
– …
• Facile à implementer
• Coût calculatoire élevé pendant le test (calcul de n
distances/requête)
– o(p) calcul d’une distance
– o(np) pour trouver un plus proche voisin
– o(knp) pour trouver k plus proche voisin
• Pas d’apprentissage à proprement parler pour trouver un modèle
• S’adapte facilement quand le nombre Nc de classes augmente
11 11
Sec.14.3
Propriétés (2)
Vecteur à classer
Observations aberrantes
13 13
Sec.14.3
Choix du paramètre k
14 14
Sec.14.3
Ajustement de k par validation croisée (1)
16 16