K Plus Proches Voisins / K-Nearest Neighbors /KNN

K plus proches voisins / K-Nearest Neighbors /KNN
1) Choisir les k instances les plus proches du point étudié selon une distance à définir afin d’en
prédire sa classe.
2) Le K-NN nécessite seulement :
 Un entier k
 Une base d’apprentissage
 Une métrique pour la proximité (la distance Euclidienne)
3) Etapes de l’algorithme K-NN :

 Etape 1 : Définissez la distance ou la mesure de similarité de deux échantillons
(instances). Dans notre cas nous allons utiliser la distance euclidienne.
 Etape 2 : Déterminer k (généralement impaire pour faciliter le vote) #on peut
commencer k par la racine carrée de nbr d’observation
 Etape 3 : Calculer les distances entre la nouvelle entrée et toutes les données de la base
d’apprentissage.
 Etape 4 : Triez la distance et déterminez les k plus proches voisins.
 Etape 5 : Rassemblez les étiquettes de classe de ces voisins.
 Etape 6 : Déterminer l’étiquette de prédiction en fonction du vote majoritaire.
Pratique : Reste à faire
Classification naïve bayésienne

1) La méthode de classification naïve bayésienne :
 Est un algo d’apprentissage supervisé qui permet de classifier un ensemble

d’observations selon des règles déterminées par l’algo lui-même.
 L’idée : Affecter à une instance X la classe C telle que p(C|X) est maximale.
 La classification naïve bayésienne est un type de classification bayésienne

𝑃(𝐵 |𝐴)𝑃(𝐴)
probabiliste simple basée sur le théorème de bayes : P(A|B) = 𝑃(𝐵)
2) Exemple :
 X’= (La météo=Ensoleillée, la température=froide, l’humidité=haute, le vent=fort)
 Prédire son étiquette ?
Prise de décision avec la règle à posteriori :
P(Oui|X’) =[P(Ensoleillée|Oui)*P(froide|Oui)*P(haute|Oui)*P(fort|Oui)]*P(Jouer=Oui)=…
P(Non|X’) =[P(Ensoleillée|Non)*P(froide|Non)*P(haute|Non)*P(fort|Non)]*P(Jouer=Non)=…
 Nous étiquetons X’ par la valeur (Oui ou Non) qu’a la probabilité plus élevée.
3) Dans le cas des variables numériques (ou continues), on doit calculer la fonction de densité
de probabilité de la valeur en question.
1
 Average : m = 𝑛 ∑𝑛𝑖=1 𝑋𝑖
1
 Standard Deviation : σ = ∑𝑛 (𝑋𝑖 − 𝑚)2
𝑛−1 𝑖=1
2
(𝑥−𝑚)
1 −
 Probability Density Function : f(X) = 𝑒 2𝜎2
√2𝜋𝜎
4) Exemple :
 X’= (La météo=pluie, la température=22, l’humidité=79, le vent=fort)
 Prédire son étiquette ?
Prise de décision avec la règle à posteriori :
P(Oui|X’)=[P(pluie|Oui)*f:températureoui(22)*f:humiditéoui(79) *P(fort|Oui)]*P(Jouer=Oui)=…
P(Non|X’)=[P(pluie|N)*f:températurenon(22)*f:humiditénon(79)*P(fort|N)]*P(Jouer=Non)=…
 Nous étiquetons X’ par la valeur (Oui ou Non) qu’a la probabilité plus élevée.
Régression linéaire simple

1) Une régression linéaire a pour objectif d’expliquer une variable Y par une autre variable
X.
2) Relation positive entre X et Y : Quand X augmente, Y augmente.
3) Relation négative entre X et Y : Quand X augmente, Y diminue.
4) Pas de relation entre X et Y : Les variations de Y ne dépendent pas des variations de X.
5) Equation linéaire : y = a*x + b
 y : La variable dépendante
 x : La variable indépendante
 b : Constante → b = 𝑦̅ − a ∗ 𝑥̅
̅̅̅̅−𝑥̅ 𝑦̅
𝑥𝑦
 a : Coefficient → a = ̅̅̅̅
𝑥 2 − 𝑥̅ 2
6) Dans la régression linéaire simple nous avons une seule variable indépendante.
7) La solution des moindres carrés consiste à choisir b0 et b1 pour rendre la somme des
carrés résiduels (Error Sum of Squares) le plus petit possible.
 SCRes = ∑𝑁 ̂𝑖)2
𝑖=1(𝑦𝑖 − 𝑦
8) Le coefficient de détermination R2
 Plus le nombre est élevé, meilleure est la correspondance entre notre modèle et les
données.
𝑆𝐶𝑅𝑒𝑔 𝑆𝐶𝑅𝑒𝑠 ∑𝑛 ̂ 𝑖 )2
𝑖=1(𝑦𝑖 −𝑦
 R2 = 𝑆𝐶𝑇
ou R2 = 1 − 𝑆𝐶𝑇
=1− ∑𝑛 ̅)2
R2 ∈ [0; 1]
𝑖=1(𝑦𝑖−𝑦
 SCReg = ∑𝑁𝑖=1(𝑦 ̂𝑖 − 𝑦̅)2 : Somme des carrés de la regression (sum of Squares due to
Regression) : la variance expliquée par la régression.
 SCRes = ∑𝑁 ̂𝑖 )2 : Somme des carrés résiduels (Error Sum of Squares) : la part

de variation qui n’est pas expliquée par le modèle est la part résiduelle.
 SCT = ∑𝑁 ̅)2 : Somme des carrés totale (Total Sum of Squares) : la variance
totale. On peut alors écrire : SCT = SCReg + SCRes
Régression linéaire multiple
1) Il consiste à étudier les liens entre une variable dépendante et des variables indépendantes.
2) L’estimation des paramètres de ce modèle se fait par l’estimateur des moindres carrés et la
qualité d’explication est généralement évalué par le R2.
3) Rappel (Types de variables) :
 Catégorique (Discrète ou Binaire)
 Catégorique non ordonnées (nominale)
 Catégorique ordonnées (ordinale)
 Continues
4) Elimination (backward elimination) :
 L’algo démarre du modèle complet, puis commence à éliminer progressivement les
variables les moins explicatives.
 Exemple RFE (Recursive Feature Elimination-Elimination récursive des attributs).
 L’objectif de la sélection automatique des variables explicatives est de réduire le
modèle aux variables explicatives les plus pertinentes.
Pratique
Régression Logistique
1) La régression logistique (ou logit) est souvent utilisée pour estimer la probabilité qu’une
observation appartienne à une classe particulière (l’exemple typique est la détection de
spam).
1
2) Sigmoid Function : p = 1+𝑒 −𝑦
𝑝
3) Fonction logistique : y = b0 + b1 * x = ln(1−𝑝)
4) Maitriser False Positives et False Négatives.

5) FN est pire que FP.
Les machines à vecteurs support (SVM)
1) Appelés aussi séparateurs à vaste marge, est une technique d’apprentissage supervisée
destinée à résoudre des problèmes de classification.
2) SVM est une méthode de classification à deux classes qui tente de séparer parfaitement les
deux ensembles d’exemple.
3) La méthode cherche alors l’hyperplan qui sépare les ensembles de données, en garantissant
que la marge entre le plus proche de ces données soit maximale.
 Nous avons deux caractéristiques (x1,x2) et quelques points de données.
 Nous voulons trouver un hyperplan, par ex une ligne qui sépare les différents points
de données avec une marge maximale, c’est la solution de la marge maximale.
Clustering : K-Means
1) L’algorithme K-means est en 5 étapes :

 1-Choisir le nbr k de clusters.
 2-Sélectionner au hasard k points (appelés les centroids).
 3-Assigner chaque point au centroid le plus proche==>cela forme k clusters.
 4-Calculer et placer le nouveau centroid de chaque cluster.
 5-Réassigner chaque point au nouveau centroid le plus proche.
 Si au moins un point a été réassigner, retourner à l’étape 4, sinon le modèle est prêt.

K Plus Proches Voisins / K-Nearest Neighbors /KNN

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

K Plus Proches Voisins / K-Nearest Neighbors /KNN

Transféré par

Droits d'auteur :

Formats disponibles

K plus proches voisins / K-Nearest Neighbors /KNN

3) Etapes de l’algorithme K-NN :

Pratique : Reste à faire

Classification naïve bayésienne

 Est un algo d’apprentissage supervisé qui permet de classifier un ensemble

 La classification naïve bayésienne est un type de classification bayésienne

Régression linéaire simple

 SCRes = ∑𝑁 ̂𝑖 )2 : Somme des carrés résiduels (Error Sum of Squares) : la part

Régression linéaire multiple

4) Maitriser False Positives et False Négatives.

1) L’algorithme K-means est en 5 étapes :

Vous aimerez peut-être aussi