Vous êtes sur la page 1sur 3

Rattrapage Transfer Learning

DIALLO IDRISSA
Source du papier : https://arxiv.org/pdf/2008.11687.pdf
What is being transferred in transfer learning?

1. Faites un résumé de maximum deux pages du papier ”What is being transferred


in transfer learning?” (7 pts)

Résumé/Abstract
Ce papier nous fournis une analyse de ce qui est transféré dans l'apprentissage par transfert
learning dans le domaine de la vision par ordinateur.
1. Introduction de l’article
L'apprentissage par transfert consiste à entraîner un modèle sur un domaine source puis à
l'adapter à un domaine cible où les données sont généralement limitées. Malgré son adoption
répandue, on ne comprend pas encore bien ce qui permet un transfert réussi et quels sont les
éléments ou parties exactes des algorithmes de réseau de neurones responsables de cet
transfert. Ce papier cherche à répondre à ces questions fondamentales à travers plusieurs
résultats expérimentaux.

2. Méthodologie adopté pour parvenir aux conclusions

Différentes expériences sont menées pour analyser le transfert:


- Le rôle de la réutilisation de caractéristiques est étudié en mélangeant des blocs d'images.
Cela perturbe les caractéristiques visuelles mais préserve les statistiques bas niveau. ces
statistiques de bas niveau conduisent à des avantages significatifs de l'apprentissage par
transfert, en particulier sur la vitesse d'optimisation.
- On compare les erreurs communes et non communes entre modèles pré-entraînés et
modèles entraînés aléatoirement. Les modèles pré-entraînés font des erreurs similaires.
- La similarité des caractéristiques est mesurée ( avec centered kernel alignment (CKA)
[Kornblith et al., 2019b] a) avec l'alignement de noyau centré. Les modèles pré-entraînés ont
des caractéristiques plus similaires.
- On analyse les barrières de performance et bassins du paysage de perte par interpolation
linéaire. Les modèles pré-entraînés restent dans le même bassin.
- La criticité des modules du réseau est étudiée. Différentes couches du réseau montrent une
robustesse variable aux perturbations de leurs poids [Zhang et al., 2019a]. Zhang et al. [2019a]
ont expérimenté en remettant à la valeur initiale les poids d'un module tout en maintenant les
autres fixes, constatant une baisse significative des performances pour certains modules
critiques, contrairement à d'autres. Chatterji et al. [2020] ont exploré cela en introduisant la
notion de criticité des modules, mesurant leur importance en fonction des vallées entre valeurs
initiales et finales des poids.
- On montre que les poids pré-entraînés guident l'optimisation vers un bassin plat dès le début.

3. Résultats
- La réutilisation de caractéristiques et le statistique bas niveau jouent un rôle important.
- Les modèles pré-entraînés font des erreurs similaires, ont des caractéristiques proches et
sont dans le même bassin de perte.
- Les couches inférieures capturent des caractéristiques plus générales.
- On peut démarrer le pré-entraînement à partir de points antérieurs sans perte de
performance.

4. Conclusion
Ce papier fournit de nouveaux outils et analyses pour comprendre le transfert. Le statistique
bas niveau et la réutilisation de caractéristiques sont importants. Les modèles pré-entraînés
restent dans le même bassin de perte avec des caractéristiques similaires. Ces résultats
peuvent améliorer les méthodes d'ensemble et d'initialisation des réseaux. Les auteurs
envisagent d'utiliser ces découvertes pour améliorer le transfert d'apprentissage en explorant
des initialisations plus légères tout en restant dans le même bassin de solution. Ces
conclusions pourraient également avoir des implications pour l'entraînement parallèle et
l'optimisation.
Question 2 : Quelle est la différence entre le Transfer Learning, le
domaine adaptation et la généralisation de domaine? (3 pt)
- Transfer Learning : Consiste à pré-entraîner un modèle sur une tâche source, puis à le
réutiliser/adapter pour une tâche cible différente. L'objectif est d'améliorer les performances
sur la tâche cible en transférant les connaissances acquises sur la tâche source.
- Domaine Adaptation : Vise à adapter un modèle entraîné sur un domaine source
(distribution de données source) pour qu'il fonctionne bien sur un domaine cible différent
(distribution cible). L'objectif est de réduire l'écart de distribution entre les deux domaines.
- Généralisation de Domaine : Consiste à entraîner un modèle pour qu'il puisse fonctionner
sur plusieurs domaines, pas seulement le domaine d'entraînement. Le but est d'améliorer la
capacité du modèle à généraliser à de nouveaux domaines qu'il n'a pas vus pendant
l'entraînement.
Le transfer learning et le domaine adaptation sont très liés et se recoupent, mais avec des
objectifs légèrement différents. La généralisation de domaine a un objectif plus large
d'améliorer la capacité à généraliser.
En somme le Transfer Learning se concentre sur le transfert de connaissances d'une
tâche/domaine à une autre, l'Adaptation de Domaine se penche sur la réduction de l'impact
des différences de distribution entre les domaines, et la Généralisation de Domaine vise à
créer des modèles robustes capables de fonctionner sur plusieurs domaines sans adaptation
spécifique.

Vous aimerez peut-être aussi