Cours2 - Fondamentaux de L'apprentissage Automatique

Fondamentaux de l’apprentissage
automatique
K. BELATTAR,
belattar.alger1@gmail.com
Département Informatique - Université d’Alger 1

04/05/2022 1
Défis de l’apprentissage automatique
Note objectif est de sélectionner l’algorithme d’apprentissage adéquat
et l’entrainer sur des données adéquats.
Deux aspects qui peuvent influencer sur l’apprentissage automatique:

- Les données à disposition
- L’algorithme d’apprentissage
04/05/2022 2
Descripteurs non
pertinents
Quantité de données
insuffisante
Données non
Mauvaise qualité représentatives
04/05/2022 de données 3
Données
1- Quantité de données d’apprentissage non suffisantes
Nécessité d’une quantité suffisante de données
- Tâches simples  milliers d’exemples
- Tâches avancées  millons de d’exemples
04/05/2022 4
Données
2- Données d’apprentissage representatives
Pour s’assurer que le modèle se généralise bien, nous devrons
assurer que les données d’apprentissage sont representatives.
L’argent fait-iI le bonheur?
04/05/2022 5
Données
3- Données de mauvaise qualité
Si les données d’apprentissage contiennent des données:
- Incomplètes,
- Bruitées,
- Incohérentes,
- Rendandontes,
- Des outliers.
 Il est difficile de détecter les patterns existants dans le dataset.
- Pré-traiter les données. C’est l’étape la plus coûteuse en termes du temps!
04/05/2022 6
Données
4- Caractéristiques non pertinentes
- convertir des données brutes en entrées (i.e vecteur de
caractéristiques) pour le modèle d’apprentissage.
- Ce processus est intitulé: ingénieurie des caractéristiques (feature
ingeneering)
(1) Extraction des caractéristiques,
(2) Sélection des caractéristiques,
(3) Génération des nouvelles caractéristiques par collection des
nouvelles données.
04/05/2022 7
Algorithme d’apprentissage
(1) Sur-apprentissage (overfitting) des données d’apprentissage
Données d’apprentissage  Exactitude (ou autres mesures de
performance)
Données du test  Exactitude (ou autres mesures de performance)
- Le modèle n’arrive pas à généraliser.
- Le modèle apprend les details et le bruit du dataset d’apprentissage
- Modèle complexe et données simples
04/05/2022 8
(1) Sous-apprentissage (underfitting) des données d’apprentissage

performance)
- Un simple modèle avec des données complexes
04/05/2022 9
- Fuite de données (Data leakage)
Dataset
Training Test
Dataset Dataset

performance)
04/05/2022 10
Underfitting Modèle bien généralisé Overfitting
- Taux d’erreur d’apprentissage -Taux d’erreur d’apprentissage -Taux d’erreur d’apprentissage

élevé  bias élevé faible  bias faible faible bias faible
Symptômes
-Taux d’erreur de test élevé  -Taux d’erreur de test faible - Taux d’erreur de test élevé
variance élevé variance faible variance élevé
Degré du polynomiale= 1 Degré du polynomiale= 2 Degré du polynomiale=4
Régression
04/05/2022 11
04/05/2022 12
Bias et variance
- Bias: est l’erreur de l’apprentissage. La fonction de perte (loss)

calcule l’erreur pour chaque exemple d’apprentissage.
- Le coût (cost) est la moyonne de toutes les fonctions de
loss pour tous les exemples d’apprentissage.
- Variance: erreur de généralisation (test ou validation)
04/05/2022 13
Fonctions de loss
Loss appartient à [0,1], Cost >1
04/05/2022 14
Généralisation et complexité du modèle
Modèle bien généralisé: bias faible, variance faible et compléxité
optimale.
Variance
Bias
04/05/2022 15
Solutions proposées pour gérer les défis
 Underfitting :
 Sélectionner un modèle complexe
 Ajouter plus de caractéristiques
 Entrainer plus le modèle (pour une durée d’apprentissage longue )
 Overfitting :
 Utiliser la validation de données
 Utiliser la régularisation (L1, L2, Lasso, Ridge)
 Ajouter plus de données
 Supprimer (ou ajouter) différentes caractéristiques
 Data leakage :
 Echantilloner dataset ensuite appliquer pour chaque sous ensemble (le dataset d’apprentissage
et le dataset de test) à part les différentes operations (prétraitement et feature ingeneering).
04/05/2022 16
Métriques d’évaluation d’un modèle
Problème de classification Problème de régression

- MAE
0.5 Optimal seuil ? - MSE
- etc.
Labels Probabilités
- Courbe ROC, score AUC
- Courbe Précision-rappel
Données équilibrées Données non équilibrées
- Exactitude - Rappel
- Erreur - Précision
04/05/2022
- F1-score 17
- etc.
Métriques d’évaluation d’un classifieur
Matrice de confusion (classification binaire)
Valeurs prédites
Positive Négative
Positive TP FN
Valeurs réelles (erreur type 2)
Négative FP TN
(erreur type 1)
 Vrais Positifs (TP: True Positives)

 Vrais Négatifs (TN: True Négatives)
 Faux Positifs (FP: False Positives)
 Faux Négatifs (FN: False Negatives)
04/05/2022 18
Métrique Formule
Exactitude 𝑻𝑷 + 𝑻𝑵
TP+TN+FP+FN
Erreur 𝟏𝟎𝟎% − 𝒆𝒙𝒂𝒄𝒕𝒊𝒕𝒖𝒅𝒆
Précision 𝑻𝑷
TP+FP
Rappel (sensibilité, TPR) 𝑻𝑷

TP+FN
Spécificité 𝑻𝑵
TN+FP
Taux de la fausse détection (FPR) 𝑭𝑷

TN+FP
1- spécificité
F1 score 𝟐𝑻𝑷
𝟐TP+FP+FN
04/05/2022 19
𝑃𝑟é𝑐𝑖𝑠𝑖𝑜𝑛 × 𝑅𝑎𝑝𝑝𝑒𝑙
𝐹𝐵𝑒𝑡𝑎 = (1 + 𝛽2 )
𝛽2 × 𝑃𝑟é𝑐𝑖𝑠𝑖𝑜𝑛 + 𝑅𝑎𝑝𝑝𝑒𝑙
𝑃𝑟é𝑐𝑖𝑠𝑖𝑜𝑛×𝑅𝑎𝑝𝑝𝑒𝑙
𝛽 = 1 (𝐹𝑁 𝑒𝑡 𝐹𝑃 ): 𝐹1 𝑆𝑐𝑜𝑟𝑒=2 ∗
𝑃𝑟é𝑐𝑖𝑠𝑖𝑜𝑛+𝑅𝑎𝑝𝑝𝑒𝑙
𝛽 = 0.5 (𝐹𝑃 ): 𝐹0.5 𝑆𝑐𝑜𝑟𝑒
𝛽 = 2 (𝐹𝑁 ): 𝐹2 𝑆𝑐𝑜𝑟𝑒
04/05/2022 20
Courbe ROC
AUC Tale3 3la score de modèle
aléatoire
Seuil (0) ----> Bon modèle
Seuil (0.4) x
x
x Seuil (0.3)
Score AUC
Seuil (0.6)
x
(FPR)
04/05/2022 21
Courbe Précision-rappel
ｍｏｄｅｌａｙａｎｔｐｌｕｓｄ＇ｅｐａｃｅ－－－－＞ｍｅｉｌｌｅｕｒ
ｍｏｄèｌｅｍｅｉｌｌｅｕｒｅ－－＞（ｐｒｃｉｓｉｏｎｔａｌ３ａ

ｒｅｃａｌｌｔａｌｅ３）
04/05/2022 22
Métriques d’évaluation d’un multi-label
classifieur
Hamming loss
Nombre total de prédiction (TNP)=25

Nombre total de prédiction incorrectes (TNIP)= 8
Hamming loss= 8/25=0.32
04/05/2022 23
Métriques d’évaluation d’un régresseur
Mean Absolute Error
04/05/2022 24
Mean Sqaure Error
04/05/2022 25
Mean Absolute Percentage Error
04/05/2022 26
Mean Percentage Error
04/05/2022 27
04/05/2022 28
Echantillonnage de données
- Généralement, utiliser “train test split”:

80% des données d’apprentissage et 20% des
données de test.
(1) Validation croisée (“k cross validation”)

(2) “Leave One Out cross validation”
(3) Stratification (“Stratified K Fold”)
(4) “Time series cross validation”
04/05/2022 29
Entrainement Test
Validation croisée
K=1 Prédiction ‘1’

04/05/2022 30
Leave One Out cross validation
04/05/2022 31
Stratification (Stratified KFold)
1000 exemples (classe 1:600, classe 2=400), si K=5, pour chaque K, nous avons 200 exemples (60% classe 1, 40% classe2)
Consever le nombre des instance spour chaque classe dans les deux ensembles traning et test.
04/05/2022 32
Time series cross validation
Prix jours 1 Prix jours 2 Prix jours 3 Prix jours 4 Prix jours 5 Output=Prix jours 6
04/05/2022 33
Modèle ensembliste
(1) Méthodes de « Bagging »

- Random forest
(2) Méthodes « Boostrap »
- Adaboost
- Gradient Boostrap
- XgBoostrap
04/05/2022 34
Modèle ensembliste
Méthodes de « Bagging »
Bootstrap (row sampling) Aggrégation
m<n Modèle M1 Prédiction ‘1’

D’m
D’’m Modèle M2 Prédiction ‘2’
Dataset D D’’’m Voting classifiers

Modèle M3 Prédiction ‘3’
(n exemples)
….. ………
D’’’’’m Prédiction ‘n’

Modèle Mn
04/05/2022 35
Modèle ensembliste
Méthodes « Bootstrap »
04/05/2022 36
Configuration des hyper-paramètres
04/05/2022 37
Conclusion
• Issus de l’apprentissage automatique (données, algorithmes)
• Métriques d’évaluation d’un modèle d’apprentissage
• Méthodes d’échantillonnage de données
• Modèle ensembliste
• Configuration des hyper-paramètres
04/05/2022 38

Cours2 - Fondamentaux de L'apprentissage Automatique

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Cours2 - Fondamentaux de L'apprentissage Automatique

Transféré par

Droits d'auteur :

Formats disponibles

Fondamentaux de l’apprentissage

Département Informatique - Université d’Alger 1

Deux aspects qui peuvent influencer sur l’apprentissage automatique:

Nécessité d’une quantité suffisante de données

- Tâches simples  milliers d’exemples

- Tâches avancées  millons de d’exemples

L’argent fait-iI le bonheur?

Données d’apprentissage  Exactitude (ou autres mesures de

- Un simple modèle avec des données complexes

Données d’apprentissage  Exactitude (ou autres mesures de

- Taux d’erreur d’apprentissage -Taux d’erreur d’apprentissage -Taux d’erreur d’apprentissage

Degré du polynomiale= 1 Degré du polynomiale= 2 Degré du polynomiale=4

- Bias: est l’erreur de l’apprentissage. La fonction de perte (loss)

- Variance: erreur de généralisation (test ou validation)

Loss appartient à [0,1], Cost >1

Problème de classification Problème de régression

 Vrais Positifs (TP: True Positives)

Erreur 𝟏𝟎𝟎% − 𝒆𝒙𝒂𝒄𝒕𝒊𝒕𝒖𝒅𝒆

Rappel (sensibilité, TPR) 𝑻𝑷

Taux de la fausse détection (FPR) 𝑭𝑷

ｍｏｄèｌｅ ｍｅｉｌｌｅｕｒｅ－－＞（ｐｒｃｉｓｉｏｎ ｔａｌ３ａ

Nombre total de prédiction (TNP)=25

- Généralement, utiliser “train test split”:

(1) Validation croisée (“k cross validation”)

K=2 Prédiction ‘2’

K=3 Prédiction ‘3’

K=4 Prédiction ‘4’

K=5 Prédiction ‘5’

K=6 Prédiction ‘6’

K=7 Prédiction ‘7’

K=1 Prédiction ‘1’

K=2 Prédiction ‘2’

K=3 Prédiction ‘3’

K=4 Prédiction ‘4’

K=5 Prédiction ‘5’

(1) Méthodes de « Bagging »

m<n Modèle M1 Prédiction ‘1’

D’’m Modèle M2 Prédiction ‘2’

Dataset D D’’’m Voting classifiers

D’’’’’m Prédiction ‘n’

• Issus de l’apprentissage automatique (données, algorithmes)

• Métriques d’évaluation d’un modèle d’apprentissage

• Méthodes d’échantillonnage de données

• Configuration des hyper-paramètres

Vous aimerez peut-être aussi

ｍｏｄèｌｅｍｅｉｌｌｅｕｒｅ－－＞（ｐｒｃｉｓｉｏｎｔａｌ３ａ