CC Machine Learning

EXERCICE 1 : 5.
25pts
Le but du Machine Learning est de prédire des résultats sur des données non
vues par la fonction prédictive.
L’hyperplan séparateur c’est la meilleur droite qui permet de séparer un jeu

de données
1. Apprentissage supervisé
C’est quoi l’ Apprentissage supervisé ?
Ce cadre de machine learning part du fait que les données historiques (ou
exemples) sont annotées ou labelisées ou étiquetées.
 Regression
Cette méthode d’analyse de données regroupe des algorithmes

d’apprentissage supervisé adaptés aux données quantitatives. L’objectif est
d’apprendre (autrement dit de trouver) la relation qui lie une variable
d’intérêt, de type quantitative, aux autres variables observées, éventuellement
dans un but de prédiction.
On utilise la régression lorsque la variable d’intérêt est quantitative, c’est à

dire « à valeur réelle OU dans un espace métrique » .
 La métrique(distance) est une notion de distance définie dans l’espace –

et souvent « à valeur continue ». Par exemple on peut essayer de prédire
l’âge d’un utilisateur en fonction de son comportement ; l’âge est une
donnée continue avec la métrique usuelle des nombres réels (23 ans et 22
ans sont distants de 1 an). Les algorithmes de régression les plus simples
sont de type régression linéaire, les plus compliqués de type régression à
noyau des moindres carrés, réseau de neurones, support vector machine,
etc.
 Classification
On utilise la classification lorsque la variable d’intérêt est qualitative, c’est à

dire qu’elle prend ses valeurs dans un espace qui ne possède pas de métrique
naturelle.
Par exemple on peut essayer de prédire le genre littéraire d’un livre ; cette
variable est discrète (genre « policier », genre « science-fiction », etc.) et il
n’y a aucune relation entre les genres, il est difficile de définir une distance
entre eux.
Les algorithmes de classification les plus simples sont :

 La régression logistique,
 Le k-nearest neighbour (méthode des k plus proches voisins)… ;
Les plus complexes sont :
 Les réseaux de neurones,
 Les support vector machine,
 Les mixture model (modèles de mélange),
 Le Bayesian classifier (classifieur Bayésien), etc.
2. Apprentissage non-supervisé
Données non étiquetées
3. Apprentissage Semi-supervisé
En quoi consiste l’apprentissage Semi-supervisé ?
4. Apprentissage par renforcement ?

 Comment es-ce que on évalue un modèle ?
 Quels sont les métriques utilisé ?
 Différence entre les Problèmes de classifications binaire et pb de
classifications multiclasse
 Def le Holdout
C’est le processus qui consiste à diviser un jeu de donner aléatoirement en
deux parties :
 Une partie pour l’apprentissage
 Une autre partie pour les tests
 Quel est l’intérêt d’utiliser le jeu de test dans l’apprentissage?
Un jeu de test est un jeu d'exemples utilisés uniquement pour évaluer les
performances (c'est-à-dire la généralisation) d'un classificateur entièrement
spécifié.
 Montrer que le XOR est linéairement séparable.

EXERCICE 2 : SVM ET KNN 10.5pts
 Principe de KNN (Les k plus proches voisins)
Exemple
Solution
𝑵𝒐𝒖𝒗𝒆𝒂𝒖 , 𝑿𝟔 = {𝟑, 𝟏𝟐, 𝟒, 𝟕, 𝟖}
5
𝑑(𝑋𝑖 , 𝑋6 ) = √∑(𝑋6,𝑘 − 𝑋𝑖,𝑘 )2 , 𝑎𝑣𝑒𝑐 𝑖 ∈ {1, … ,5}

𝑘=1
𝑑(𝑋1 , 𝑋6 ) = 9.94 ; 𝑑(𝑋2 , 𝑋6 ) = 11.18 ;𝑑(𝑋3 , 𝑋6 ) = 11.62 ; 𝑑(𝑋4 , 𝑋6 ) =

11.916 ;𝑑(𝑋5 , 𝑋6 ) = 8.25
Application de l’algorithme du K-NN
 K=1
 Après calcul de distance , on calcul l’élément le plus proche de , 𝑿𝟔
 Donc , 𝑿𝟓 .
 On conclut que , 𝑿𝟔 𝒆𝒔𝒕 𝒅𝒆 𝒄𝒍𝒂𝒔𝒔𝒆 𝟐.
 K=3
 Après calcul de distance , on calcul les 0 3 éléments les plus proche de
𝑿𝟔 .
 Donc : 𝑿𝟓 (𝒅𝒆 𝒄𝒍𝒂𝒔𝒔𝒆 𝟐), 𝑿𝟐 (𝒅𝒆 𝒄𝒍𝒂𝒔𝒔𝒆 𝟐), 𝑿𝟏 (𝒅𝒆 𝒄𝒍𝒂𝒔𝒔𝒆 𝟏).
 On choisit la classe majoritaire pour 𝑿𝟔 . Donc 𝑿𝟔 𝒆𝒔𝒕 𝒅𝒆 𝒄𝒍𝒂𝒔𝒔𝒆 𝟐.
SVM
 SVM linéaire
Ici on fait l’hypothèse que tous les problème sont linéairement séparable.
Le principe des SVM consiste à ramener un problème de classification ou de

discrimination à un hyperplan (feature space) dans lequel les données sont
séparées en plusieurs classes dont la frontière est la plus éloignée possible des
points de données (ou marge maximale).
Ou encore
Les SVM ont pour but de séparer les données en classes à l’aide d’une frontière
aussi « simple » que possible, de telle façon que la distance entre les différents
groupes de données et la frontière qui les sépare soit maximale. Cette distance
est aussi appelée « marge » et les SVMs sont ainsi qualifiés de « séparateurs à
vaste marge », les « vecteurs de support » étant les données les plus proches de
la frontière.
Def
La frontière est la droite noire.

Les « vecteurs de support » sont les points entourés (les plus proche de la
frontière) .
La « marge » est la distance entre la frontière et les droites bleue et rouge.
Marge= C’est la distance entre les différents groupes de données et la frontière

qui les sépare.
Cette notion de frontière suppose que les données soient linéairement

séparables, ce qui est rarement le cas. Pour y pallier, les SVMs reposent
souvent sur l’utilisation de «fonctions noyaux ».
 SVM non linéaire

Ici on fait l’hypothèse que tous les problème ne sont pas linéairement
séparable, on introduit d’une fonction noyau 𝚽
 Quel est l’astuce des fonctions noyaux ?
fonctions noyaux : Ce sont des fonctions mathématiques qui permettent de
séparer les données en les projetant dans un feature space (un espace vectoriel
de plus grande dimension, voir figure ci-dessous).
Les SVMs permettent de projeter les données dans un espace de plus grande
dimension via une fonction noyau pour les séparer linéairement.
validation croisée.
La validation croisée aide à l’évaluation des modèles d’apprentissage
automatique.
L’underfitting et le overfitting sont deux concepts majeurs de l’apprentissage

automatique. Ces termes définissent la capacité d’un modèle à prédire les
données. Pour vérifier la performance et le comportement de l’algorithme,
l’overfitting inclut une valeur d’hyperparamètre.
L’overfitting dans l’apprentissage automatique
Overfitting : un modèle trop spécialisé sur les données du Training Set (les
données qu’il a déjà “vues” et auxquelles il s’y est adapté) et qui se généralisera
mal.
L’overfitting est simplement l’opposé de l’underfitting. Cela signifie qu’en plus

d’apprendre les données et d’extraire le modèle, le modèle apprend plus que sa
capacité. Cette condition indique que les données vont capter du bruit, ce qui
conduit à la généralisation du modèle pour les nouvelles données. Le bruit est
constitué de données non pertinentes qui affectent la sortie de la prédiction lors
de la rencontre de nouvelles données.
L’Underfitting (sous-apprentissage), sous entend que le modèle prédictif généré
lors de la phase d’apprentissage, s’adapte mal au Training Set (les données qu’il
a déjà “vues” et auxquelles il s’y est adapté).
EXERCICE 3(TP en salle sur le diabètes) 5.25pts
Explication des lignes de code
03 lignes de code par question( au moins dix ligne de code viendra)
Les bibliothèques suivantes permettent d’effectuer différentes tâches :
 Numpy -Vous aide à effectuer des calculs scientifiques.

 Pandas -Vous aide à manipuler facilement la structure des données.
 Sklearn – C’est une bibliothèque d’apprentissage automatique que vous
pouvez utiliser pour Python.
NB Bien faire chaque exercice et surtout commencer un exercice et le terminer

CC Machine Learning

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

CC Machine Learning

Transféré par

Droits d'auteur :

Formats disponibles

EXERCICE 1 : 5.

L’hyperplan séparateur c’est la meilleur droite qui permet de séparer un jeu

Cette méthode d’analyse de données regroupe des algorithmes

On utilise la régression lorsque la variable d’intérêt est quantitative, c’est à

 La métrique(distance) est une notion de distance définie dans l’espace –

On utilise la classification lorsque la variable d’intérêt est qualitative, c’est à

Les algorithmes de classification les plus simples sont :

4. Apprentissage par renforcement ?

 Montrer que le XOR est linéairement séparable.

 Principe de KNN (Les k plus proches voisins)

𝑑(𝑋𝑖 , 𝑋6 ) = √∑(𝑋6,𝑘 − 𝑋𝑖,𝑘 )2 , 𝑎𝑣𝑒𝑐 𝑖 ∈ {1, … ,5}

𝑑(𝑋1 , 𝑋6 ) = 9.94 ; 𝑑(𝑋2 , 𝑋6 ) = 11.18 ;𝑑(𝑋3 , 𝑋6 ) = 11.62 ; 𝑑(𝑋4 , 𝑋6 ) =

Application de l’algorithme du K-NN

Le principe des SVM consiste à ramener un problème de classification ou de

La frontière est la droite noire.

Marge= C’est la distance entre les différents groupes de données et la frontière

Cette notion de frontière suppose que les données soient linéairement

 SVM non linéaire

L’underfitting et le overfitting sont deux concepts majeurs de l’apprentissage

L’overfitting dans l’apprentissage automatique

L’overfitting est simplement l’opposé de l’underfitting. Cela signifie qu’en plus

EXERCICE 3(TP en salle sur le diabètes) 5.25pts

Explication des lignes de code

03 lignes de code par question( au moins dix ligne de code viendra)

Les bibliothèques suivantes permettent d’effectuer différentes tâches :

 Numpy -Vous aide à effectuer des calculs scientifiques.

NB Bien faire chaque exercice et surtout commencer un exercice et le terminer

Vous aimerez peut-être aussi