Vous êtes sur la page 1sur 38

Fondamentaux de l’apprentissage

automatique
K. BELATTAR,
belattar.alger1@gmail.com

Département Informatique - Université d’Alger 1


04/05/2022 1
Défis de l’apprentissage automatique
Note objectif est de sélectionner l’algorithme d’apprentissage adéquat
et l’entrainer sur des données adéquats.

Deux aspects qui peuvent influencer sur l’apprentissage automatique:


- Les données à disposition
- L’algorithme d’apprentissage

04/05/2022 2
Défis de l’apprentissage automatique

Descripteurs non
pertinents
Quantité de données
insuffisante

Données non
Mauvaise qualité représentatives
04/05/2022 de données 3
Défis de l’apprentissage automatique

Données
1- Quantité de données d’apprentissage non suffisantes

Nécessité d’une quantité suffisante de données

- Tâches simples  milliers d’exemples

- Tâches avancées  millons de d’exemples

04/05/2022 4
Défis de l’apprentissage automatique

Données
2- Données d’apprentissage representatives
Pour s’assurer que le modèle se généralise bien, nous devrons
assurer que les données d’apprentissage sont representatives.

L’argent fait-iI le bonheur?

04/05/2022 5
Défis de l’apprentissage automatique
Données
3- Données de mauvaise qualité
Si les données d’apprentissage contiennent des données:
- Incomplètes,
- Bruitées,
- Incohérentes,
- Rendandontes,
- Des outliers.
 Il est difficile de détecter les patterns existants dans le dataset.
- Pré-traiter les données. C’est l’étape la plus coûteuse en termes du temps!

04/05/2022 6
Défis de l’apprentissage automatique

Données
4- Caractéristiques non pertinentes
- convertir des données brutes en entrées (i.e vecteur de
caractéristiques) pour le modèle d’apprentissage.
- Ce processus est intitulé: ingénieurie des caractéristiques (feature
ingeneering)
(1) Extraction des caractéristiques,
(2) Sélection des caractéristiques,
(3) Génération des nouvelles caractéristiques par collection des
nouvelles données.
04/05/2022 7
Défis de l’apprentissage automatique

Algorithme d’apprentissage
(1) Sur-apprentissage (overfitting) des données d’apprentissage
Données d’apprentissage  Exactitude (ou autres mesures de
performance)
Données du test  Exactitude (ou autres mesures de performance)
- Le modèle n’arrive pas à généraliser.
- Le modèle apprend les details et le bruit du dataset d’apprentissage
- Modèle complexe et données simples

04/05/2022 8
Défis de l’apprentissage automatique

Algorithme d’apprentissage
(1) Sous-apprentissage (underfitting) des données d’apprentissage

Données d’apprentissage  Exactitude (ou autres mesures de


performance)
Données du test  Exactitude (ou autres mesures de performance)

- Un simple modèle avec des données complexes

04/05/2022 9
Défis de l’apprentissage automatique

Algorithme d’apprentissage
- Fuite de données (Data leakage)
Dataset

Training Test
Dataset Dataset

Données d’apprentissage  Exactitude (ou autres mesures de


performance)
Données du test  Exactitude (ou autres mesures de performance)
04/05/2022 10
Défis de l’apprentissage automatique
Underfitting Modèle bien généralisé Overfitting

- Taux d’erreur d’apprentissage -Taux d’erreur d’apprentissage -Taux d’erreur d’apprentissage


élevé  bias élevé faible  bias faible faible bias faible
Symptômes
-Taux d’erreur de test élevé  -Taux d’erreur de test faible - Taux d’erreur de test élevé
variance élevé variance faible variance élevé

Degré du polynomiale= 1 Degré du polynomiale= 2 Degré du polynomiale=4

Régression

04/05/2022 11
Défis de l’apprentissage automatique

04/05/2022 12
Bias et variance

- Bias: est l’erreur de l’apprentissage. La fonction de perte (loss)


calcule l’erreur pour chaque exemple d’apprentissage.
- Le coût (cost) est la moyonne de toutes les fonctions de
loss pour tous les exemples d’apprentissage.

- Variance: erreur de généralisation (test ou validation)

04/05/2022 13
Fonctions de loss

Loss appartient à [0,1], Cost >1

04/05/2022 14
Généralisation et complexité du modèle
Modèle bien généralisé: bias faible, variance faible et compléxité
optimale.

Variance

Bias

04/05/2022 15
Solutions proposées pour gérer les défis
 Underfitting :
 Sélectionner un modèle complexe
 Ajouter plus de caractéristiques
 Entrainer plus le modèle (pour une durée d’apprentissage longue )
 Overfitting :
 Utiliser la validation de données
 Utiliser la régularisation (L1, L2, Lasso, Ridge)
 Ajouter plus de données
 Supprimer (ou ajouter) différentes caractéristiques
 Data leakage :
 Echantilloner dataset ensuite appliquer pour chaque sous ensemble (le dataset d’apprentissage
et le dataset de test) à part les différentes operations (prétraitement et feature ingeneering).

04/05/2022 16
Métriques d’évaluation d’un modèle

Problème de classification Problème de régression


- MAE
0.5 Optimal seuil ? - MSE
- etc.
Labels Probabilités
- Courbe ROC, score AUC
- Courbe Précision-rappel
Données équilibrées Données non équilibrées
- Exactitude - Rappel
- Erreur - Précision
04/05/2022
- F1-score 17
- etc.
Métriques d’évaluation d’un classifieur
Matrice de confusion (classification binaire)
Valeurs prédites

Positive Négative
Positive TP FN
Valeurs réelles (erreur type 2)
Négative FP TN
(erreur type 1)

 Vrais Positifs (TP: True Positives)


 Vrais Négatifs (TN: True Négatives)
 Faux Positifs (FP: False Positives)
 Faux Négatifs (FN: False Negatives)
04/05/2022 18
Métriques d’évaluation d’un classifieur
Métrique Formule
Exactitude 𝑻𝑷 + 𝑻𝑵
TP+TN+FP+FN

Erreur 𝟏𝟎𝟎% − 𝒆𝒙𝒂𝒄𝒕𝒊𝒕𝒖𝒅𝒆

Précision 𝑻𝑷
TP+FP

Rappel (sensibilité, TPR) 𝑻𝑷


TP+FN

Spécificité 𝑻𝑵
TN+FP

Taux de la fausse détection (FPR) 𝑭𝑷


TN+FP
1- spécificité
F1 score 𝟐𝑻𝑷
𝟐TP+FP+FN
04/05/2022 19
Métriques d’évaluation d’un classifieur

𝑃𝑟é𝑐𝑖𝑠𝑖𝑜𝑛 × 𝑅𝑎𝑝𝑝𝑒𝑙
𝐹𝐵𝑒𝑡𝑎 = (1 + 𝛽2 )
𝛽2 × 𝑃𝑟é𝑐𝑖𝑠𝑖𝑜𝑛 + 𝑅𝑎𝑝𝑝𝑒𝑙

𝑃𝑟é𝑐𝑖𝑠𝑖𝑜𝑛×𝑅𝑎𝑝𝑝𝑒𝑙
𝛽 = 1 (𝐹𝑁 𝑒𝑡 𝐹𝑃 ): 𝐹1 𝑆𝑐𝑜𝑟𝑒=2 ∗
𝑃𝑟é𝑐𝑖𝑠𝑖𝑜𝑛+𝑅𝑎𝑝𝑝𝑒𝑙
𝛽 = 0.5 (𝐹𝑃 ): 𝐹0.5 𝑆𝑐𝑜𝑟𝑒
𝛽 = 2 (𝐹𝑁 ): 𝐹2 𝑆𝑐𝑜𝑟𝑒

04/05/2022 20
Métriques d’évaluation d’un classifieur
Courbe ROC
AUC Tale3 3la score de modèle
aléatoire
Seuil (0) ----> Bon modèle
Seuil (0.4) x
x
x Seuil (0.3)

Score AUC

Seuil (0.6)
x

(FPR)

04/05/2022 21
Métriques d’évaluation d’un classifieur
Courbe Précision-rappel
model ayant plus d'epace ---->meilleur

modèle meilleure-->(prcision tal3a


recall tale3)

04/05/2022 22
Métriques d’évaluation d’un multi-label
classifieur
Hamming loss

Nombre total de prédiction (TNP)=25


Nombre total de prédiction incorrectes (TNIP)= 8
Hamming loss= 8/25=0.32
04/05/2022 23
Métriques d’évaluation d’un régresseur
Mean Absolute Error

04/05/2022 24
Métriques d’évaluation d’un régresseur
Mean Sqaure Error

04/05/2022 25
Métriques d’évaluation d’un régresseur
Mean Absolute Percentage Error

04/05/2022 26
Métriques d’évaluation d’un régresseur
Mean Percentage Error

04/05/2022 27
Métriques d’évaluation d’un régresseur

04/05/2022 28
Echantillonnage de données

- Généralement, utiliser “train test split”:


80% des données d’apprentissage et 20% des
données de test.

(1) Validation croisée (“k cross validation”)


(2) “Leave One Out cross validation”
(3) Stratification (“Stratified K Fold”)
(4) “Time series cross validation”

04/05/2022 29
Echantillonnage de données
Entrainement Test
Validation croisée
K=1 Prédiction ‘1’

K=2 Prédiction ‘2’

K=3 Prédiction ‘3’

K=4 Prédiction ‘4’

K=5 Prédiction ‘5’

K=6 Prédiction ‘6’

K=7 Prédiction ‘7’


04/05/2022 30
Echantillonnage de données
Leave One Out cross validation

04/05/2022 31
Echantillonnage de données
Stratification (Stratified KFold)
1000 exemples (classe 1:600, classe 2=400), si K=5, pour chaque K, nous avons 200 exemples (60% classe 1, 40% classe2)
Consever le nombre des instance spour chaque classe dans les deux ensembles traning et test.

K=1 Prédiction ‘1’

K=2 Prédiction ‘2’

K=3 Prédiction ‘3’

K=4 Prédiction ‘4’

K=5 Prédiction ‘5’

04/05/2022 32
Echantillonnage de données
Time series cross validation

Prix jours 1 Prix jours 2 Prix jours 3 Prix jours 4 Prix jours 5 Output=Prix jours 6

Prix jours 2 Prix jours 3 Prix jours 4 Prix jours 5 Prix jours 6 Output=Prix jours 7

Prix jours 3 Prix jours 4 Prix jours 5 Prix jours 6 Prix jours 7 Output=Prix jours 8

04/05/2022 33
Modèle ensembliste

(1) Méthodes de « Bagging »


- Random forest
(2) Méthodes « Boostrap »
- Adaboost
- Gradient Boostrap
- XgBoostrap

04/05/2022 34
Modèle ensembliste
Méthodes de « Bagging »
Bootstrap (row sampling) Aggrégation

m<n Modèle M1 Prédiction ‘1’


D’m

D’’m Modèle M2 Prédiction ‘2’

Dataset D D’’’m Voting classifiers


Modèle M3 Prédiction ‘3’
(n exemples)

….. ………

D’’’’’m Prédiction ‘n’


Modèle Mn
04/05/2022 35
Modèle ensembliste
Méthodes « Bootstrap »

04/05/2022 36
Configuration des hyper-paramètres

04/05/2022 37
Conclusion

• Issus de l’apprentissage automatique (données, algorithmes)

• Métriques d’évaluation d’un modèle d’apprentissage

• Méthodes d’échantillonnage de données

• Modèle ensembliste

• Configuration des hyper-paramètres

04/05/2022 38

Vous aimerez peut-être aussi