Vous êtes sur la page 1sur 19

Data Science Fundamentals

Cours de Mastère (S1) : Intelligent DEcision mAking Strategies (IDEAS)

Chapitre 3 : Outils de la Science des données-2

La classification
(K Nearest Neighbors)

Wahiba Ben Abdessalem


Institut Supérieur de Gestion de Tunis
Data Science Fundamentals
Introduction à la Science des données
Plan du cours

Objectifs
Ce module est introductif et a pour objectif la familiarisation des étudiants avec les concepts relatifs à la Science des données et à la
compréhension de son utilité à travers des exemples.
Chapitres :
Chapitre 1 : Introduction à la Science des données
Chapitre 2 : Méthodologie de Science des données (processus)
Chapitre 3 : Outils de la Science des données ( langages et algorithmes)
Chapitre 4 : Applications de la Science des données
Chapitre 5 : la Science des données et le Big data
Chapitre 6 : La Visualisation dans la Science des données
Chapitre 7 : Ethiques des Sciences des données

2
Data Science Fundamentals
Outils de la Science des données ( Algorithmes de base)

Plan du Cours: Classification


• Introduction
• Algorithmes de Classification supervisée
• Méthode de Bayes naïf (Naive bayes )
• k plus proches voisins (K Nearest Neighbors)
• Arbres de décision (Decision trees)
• Réseaux de neurones (Neural networks)

3
Introduction

La classification Plus proche voisin est principalement


utilisée lorsque toutes les valeurs d'attribut sont
continues (Integer , Interval-scaled).
L'idée est d'estimer la classification d'une instance
invisible en utilisant la classification de l'instance ou
des instances qui en sont les plus proches
Classification |Nearest instance
(l’instance la plus proche)
Supposons nous avons le training set avec seulement 2
instances

Quelle est la classification de l’instance suivante?

Il semble que l'instance invisible soit plus proche de la


première instance que de la seconde.
En l'absence de toute autre information, nous pourrions
prédire sa classification comme "négative".
Classification |k-Nearest Neighbour
Classification
Il est habituel de baser la classification sur ceux des k plus proches
voisins (où k est un petit entier tel que 3 ou 5), et pas seulement sur le
plus proche. La méthode est alors connue sous le nom k-Nearest
Neighbour ou k-NN classification

k-Nearest Neighbor Classification Une méthode de


classification d'une instance invisible à l'aide de la
classification de l'instance ou des instances les plus proches
d'elle.
Classification |Exemple de classification utilisant
l’algorithme KNN

Soit un ensemble d'apprentissage


avec 20 instances, chacune donnant
les valeurs de deux attributs et une
classification associée (-, +).

Comment estimer la classification


d'une instance "invisible" telle que:

9.1 11.0 ??
Classification | Example de classification utilisant
l’algorithme KNN

Pour ce petit nombre d'attributs, nous


pouvons représenter l'ensemble
d'apprentissage sous la forme de 20
points sur un graphique à deux
dimensions.
Chaque point est étiqueté avec le
symbole + ou - pour indiquer sa
classification.

Les cinq voisins les plus proches sont


étiquetés avec trois signes + et deux
signes -, de sorte qu'un classificateur de
base 5-NN classerait l'instance invisible
comme "positive" par vote à la majorité.
Classification | Mesures de la Distance

• Au fur et à mesure que le nombre de dimensions (attributs)


augmente, il devient impossible de les visualiser sur un
graphique 2D.
• Comment faire ?

• Mesurer la distance
• Il existe de nombreuses façons possibles de mesurer la
distance entre deux instances avec n valeurs d'attribut

Mesure de distance Un moyen de mesurer la similarité


entre deux instances. Plus la valeur est petite, plus la
similarité est grande
Classification |Mesures de la Distance :
Distance Euclidienne

La mesure de distance la plus populaire est la Distance


Euclidienne (Euclidean Distance)
La distance euclidienne avec 2 dimensions:

Si nous désignons une instance dans l'ensemble


d'apprentissage par (a1, a2) et l'instance invisible par (b1, b2),
la distance est la droite joignant les deux points.
Classification |Mesures de distance :
distance euclidienne

S'il y a deux points (a1, a2, a3) et (b1, b2, b3) dans un espace
tridimensionnel, la formule de distance euclidienne est

En général, la formule de la distance euclidienne entre les


points (a1, a2, . . . , an) et (b1, b2, . . . , bn) dans l'espace à n
dimensions est :

Fonctionne bien avec un espace à 2 ou 3 dimensions,


mais pas avec un espace de dimension supérieure .
Classification |Mesures de distance : cosine (cosinus)

La similarité cosinus a souvent été utilisée comme moyen de


contrer le problème de distance euclidienne avec une
dimensionnalité élevée.
La similitude cosinus est simplement le cosinus de l'angle entre
deux vecteurs.
Deux vecteurs ayant exactement la même orientation ont une
similarité cosinus de 1, alors que deux vecteurs diamétralement
opposés ont une similarité de -1.

x . y = produit (point) des vecteurs 'x' et 'y'.


||x|| et ||y|| = longueur des deux vecteurs 'x' et 'y'.
||x|| * ||y|| = produit croisé des deux vecteurs 'x' et 'y'.
Classification |Mesures de distance :
cosine (cosinus)-EXEMPLE

Considérons les vecteurs:


x = { 3, 2, 0, 5 }
y = { 1, 0, 0, 0 }

Distance (x,y) = Cos(x, y) = x . y / ||x|| * ||y||

x . y = 3*1 + 2*0 + 0*0 + 5*0 = 3


||x|| = (3)^2 + (2)^2 + (0)^2 + (5)^2= 6.16
||y|| = (1)^2 + (0)^2 + (0)^2 + (0)^2= 1
Cos(x, y) = 3 / (6.16 * 1) = 0.49
Classification |Mesures de distance :
distance de Manhattan ou distance de bloc de ville

Une autre mesure est appelée Manhattan Distance ou City Block


Distance.
Par exemple, si vous voyagez dans une ville comme Manhattan,
vous ne pouvez pas (généralement) aller directement d'un endroit à
un autre, mais uniquement en vous déplaçant le long de rues
alignées horizontalement et verticalement.
La distance entre une instance dans l'ensemble d'apprentissage (a1,
a2) et l'instance invisible (b1, b2) = │b1-a1 + b2-a2 │

Exemple : distance de Manhattan entre les points (4, 2) et (12, 9)


=(12 - 4) + (9 - 2) = 8 + 7 = 15.
Classification |Mesures de distance :
distance de Jaccard
L'indice Jaccard (ou Intersection sur Union) est une métrique utilisée pour calculer
la similarité et la diversité des ensembles d'échantillons.
C'est la taille de l'intersection divisée par la taille de l'union des ensembles
d'échantillons.
Pour calculer la distance de Jaccard, nous soustrayons simplement l'indice de
Jaccard de 1 :

Exemple: calculer la distance de jaccard entre les deux ensembles suivants :

•A = {0,1,2,5,6}
•B = {0,2,3,4,5,7,9}

Solution:
Indice_de_Jaccard(A,B) = |A∩B| / |A∪B| = |{0,2,5}| / |{0,1,2,3,4,5,6,7,9}| = 3/9 = 0.33.
Distance_de_Jaccard = 1- 0,33 = 0,67
Classification |Mesures : Distance de dimension maximale

Une troisième possibilité est la distance dimensionnelle maximale. Il s'agit de la plus grande
différence absolue entre n'importe quelle paire de valeurs d'attributs correspondantes.

Remarque : la différence absolue est la différence convertie en un nombre positif si elle est
négative (Ib1-a1I or Ia1-b1I).

Par exemple, la distance dimensionnelle maximale entre les instances ci-dessous est de :

Instance 1 6,2 --7,1 --5 18,3 --3,1 8,9 Distance = 19,5


pos Class= neg
Instance a classer 8,3 12,4 --4,1 19,7 --6,2 12,4 ? (Prendre la plus
2,1 19,5 0,9 1,4 3:1 3,5 petite distance des 2
instances)
Instance 2 Distance = 13,2
5 10 3 11 7 6 neg
Instance a classer 8,3 12,4 --4,1 19,7 --6,2 12,4 ?
3,3 2,4 7,1 8,7 13,2 6,4
Classification |Nearest Neighbour Algorithm: Step-by-Step
Nearest Neighbour Algorithm
Étape 1 : Définissez la valeur de k, où k peut être n'importe quelle valeur
3, 5, 7 etc. (impair et NON pair : 4,6…)
Étape 2 : Calculez la similarité entre l'instance invisible/non classée et
chaque instance de la formation à l'aide de l'une des mesures de
distance :
• Distance euclidienne
• Manhattan distance
• Distance dimensionnelle maximale...
Étape 3 : Trouvez les k instances les plus proches (plus petite) de
l'instance invisible.
Étape 4 : Utilisez la classification utilisée par la majorité des instances les
plus proches comme classification pour l'instance invisible.
Classification |Self-Assessment
Exercise Attribut1 Attribut2 Class
0,8 6,3 −
1,4 8,1 −
2,1 7,4 −
À l'aide de l'ensemble 2,6 14,3 +
6,8 12,6 −
d'apprentissage illustré dans le 8,8 9,8 +
tableau, utilisez la mesure de 9,2 11,6 −
10,8 9,6 +
distance euclidienne, calculez 11,8 9,9 +
12,4 6,5 +
les 5 plus proches voisins de 12,8 1,1 −
l'instance : 14 19,9 −
14,2 18,5 −
Att1 Att2 Classe 15,6 17,4 −
9.1 11.0 ? 15,8 12,2 −
16,6 6,7 +
17,4 4,5 +
18,2 6,9 +
19 3,4 −
19,6 11,1 +
Classification |Self-Assessment
Exercise
Attribut1 Attribut2 Class (a1-b1)2 (a2-b2)2 Distance
Att1 Att2 Classe 0,8 6,3 − 68,89 22,09 9,54
9.1 11.0 ? 1,4 8,1 − 59,29 8,41 8,23
2,1 7,4 − 49 12,96 7,87
2,6 14,3 + 42,25 10,89 7,29
3 + et 2 - donc + 6,8 12,6 − 5,29 2,56 2,80
8,8 9,8 + 0,09 1,44 1,24
9,2 11,6 − 0,01 0,36 0,61
10,8 9,6 + 2,89 1,96 2,20
11,8 9,9 + 7,29 1,21 2,92
12,4 6,5 + 10,89 20,25 5,58
12,8 1,1 − 13,69 98,01 10,57
14 19,9 − 24,01 79,21 10,16
14,2 18,5 − 26,01 56,25 9,07
15,6 17,4 − 42,25 40,96 9,12
15,8 12,2 − 44,89 1,44 6,81
16,6 6,7 + 56,25 18,49 8,65
17,4 4,5 + 68,89 42,25 10,54
18,2 6,9 + 82,81 16,81 9,98
19 3,4 − 98,01 57,76 12,48
19,6 11,1 + 110,25 0,01 10,50

Vous aimerez peut-être aussi