Académique Documents
Professionnel Documents
Culture Documents
Cours2 - Fondamentaux de L'apprentissage Automatique
Cours2 - Fondamentaux de L'apprentissage Automatique
automatique
K. BELATTAR,
belattar.alger1@gmail.com
04/05/2022 2
Défis de l’apprentissage automatique
Descripteurs non
pertinents
Quantité de données
insuffisante
Données non
Mauvaise qualité représentatives
04/05/2022 de données 3
Défis de l’apprentissage automatique
Données
1- Quantité de données d’apprentissage non suffisantes
04/05/2022 4
Défis de l’apprentissage automatique
Données
2- Données d’apprentissage representatives
Pour s’assurer que le modèle se généralise bien, nous devrons
assurer que les données d’apprentissage sont representatives.
04/05/2022 5
Défis de l’apprentissage automatique
Données
3- Données de mauvaise qualité
Si les données d’apprentissage contiennent des données:
- Incomplètes,
- Bruitées,
- Incohérentes,
- Rendandontes,
- Des outliers.
Il est difficile de détecter les patterns existants dans le dataset.
- Pré-traiter les données. C’est l’étape la plus coûteuse en termes du temps!
04/05/2022 6
Défis de l’apprentissage automatique
Données
4- Caractéristiques non pertinentes
- convertir des données brutes en entrées (i.e vecteur de
caractéristiques) pour le modèle d’apprentissage.
- Ce processus est intitulé: ingénieurie des caractéristiques (feature
ingeneering)
(1) Extraction des caractéristiques,
(2) Sélection des caractéristiques,
(3) Génération des nouvelles caractéristiques par collection des
nouvelles données.
04/05/2022 7
Défis de l’apprentissage automatique
Algorithme d’apprentissage
(1) Sur-apprentissage (overfitting) des données d’apprentissage
Données d’apprentissage Exactitude (ou autres mesures de
performance)
Données du test Exactitude (ou autres mesures de performance)
- Le modèle n’arrive pas à généraliser.
- Le modèle apprend les details et le bruit du dataset d’apprentissage
- Modèle complexe et données simples
04/05/2022 8
Défis de l’apprentissage automatique
Algorithme d’apprentissage
(1) Sous-apprentissage (underfitting) des données d’apprentissage
04/05/2022 9
Défis de l’apprentissage automatique
Algorithme d’apprentissage
- Fuite de données (Data leakage)
Dataset
Training Test
Dataset Dataset
Régression
04/05/2022 11
Défis de l’apprentissage automatique
04/05/2022 12
Bias et variance
04/05/2022 13
Fonctions de loss
04/05/2022 14
Généralisation et complexité du modèle
Modèle bien généralisé: bias faible, variance faible et compléxité
optimale.
Variance
Bias
04/05/2022 15
Solutions proposées pour gérer les défis
Underfitting :
Sélectionner un modèle complexe
Ajouter plus de caractéristiques
Entrainer plus le modèle (pour une durée d’apprentissage longue )
Overfitting :
Utiliser la validation de données
Utiliser la régularisation (L1, L2, Lasso, Ridge)
Ajouter plus de données
Supprimer (ou ajouter) différentes caractéristiques
Data leakage :
Echantilloner dataset ensuite appliquer pour chaque sous ensemble (le dataset d’apprentissage
et le dataset de test) à part les différentes operations (prétraitement et feature ingeneering).
04/05/2022 16
Métriques d’évaluation d’un modèle
Positive Négative
Positive TP FN
Valeurs réelles (erreur type 2)
Négative FP TN
(erreur type 1)
Précision 𝑻𝑷
TP+FP
Spécificité 𝑻𝑵
TN+FP
𝑃𝑟é𝑐𝑖𝑠𝑖𝑜𝑛 × 𝑅𝑎𝑝𝑝𝑒𝑙
𝐹𝐵𝑒𝑡𝑎 = (1 + 𝛽2 )
𝛽2 × 𝑃𝑟é𝑐𝑖𝑠𝑖𝑜𝑛 + 𝑅𝑎𝑝𝑝𝑒𝑙
𝑃𝑟é𝑐𝑖𝑠𝑖𝑜𝑛×𝑅𝑎𝑝𝑝𝑒𝑙
𝛽 = 1 (𝐹𝑁 𝑒𝑡 𝐹𝑃 ): 𝐹1 𝑆𝑐𝑜𝑟𝑒=2 ∗
𝑃𝑟é𝑐𝑖𝑠𝑖𝑜𝑛+𝑅𝑎𝑝𝑝𝑒𝑙
𝛽 = 0.5 (𝐹𝑃 ): 𝐹0.5 𝑆𝑐𝑜𝑟𝑒
𝛽 = 2 (𝐹𝑁 ): 𝐹2 𝑆𝑐𝑜𝑟𝑒
04/05/2022 20
Métriques d’évaluation d’un classifieur
Courbe ROC
AUC Tale3 3la score de modèle
aléatoire
Seuil (0) ----> Bon modèle
Seuil (0.4) x
x
x Seuil (0.3)
Score AUC
Seuil (0.6)
x
(FPR)
04/05/2022 21
Métriques d’évaluation d’un classifieur
Courbe Précision-rappel
model ayant plus d'epace ---->meilleur
04/05/2022 22
Métriques d’évaluation d’un multi-label
classifieur
Hamming loss
04/05/2022 24
Métriques d’évaluation d’un régresseur
Mean Sqaure Error
04/05/2022 25
Métriques d’évaluation d’un régresseur
Mean Absolute Percentage Error
04/05/2022 26
Métriques d’évaluation d’un régresseur
Mean Percentage Error
04/05/2022 27
Métriques d’évaluation d’un régresseur
04/05/2022 28
Echantillonnage de données
04/05/2022 29
Echantillonnage de données
Entrainement Test
Validation croisée
K=1 Prédiction ‘1’
04/05/2022 31
Echantillonnage de données
Stratification (Stratified KFold)
1000 exemples (classe 1:600, classe 2=400), si K=5, pour chaque K, nous avons 200 exemples (60% classe 1, 40% classe2)
Consever le nombre des instance spour chaque classe dans les deux ensembles traning et test.
04/05/2022 32
Echantillonnage de données
Time series cross validation
Prix jours 1 Prix jours 2 Prix jours 3 Prix jours 4 Prix jours 5 Output=Prix jours 6
Prix jours 2 Prix jours 3 Prix jours 4 Prix jours 5 Prix jours 6 Output=Prix jours 7
Prix jours 3 Prix jours 4 Prix jours 5 Prix jours 6 Prix jours 7 Output=Prix jours 8
04/05/2022 33
Modèle ensembliste
04/05/2022 34
Modèle ensembliste
Méthodes de « Bagging »
Bootstrap (row sampling) Aggrégation
….. ………
04/05/2022 36
Configuration des hyper-paramètres
04/05/2022 37
Conclusion
• Modèle ensembliste
04/05/2022 38