Académique Documents
Professionnel Documents
Culture Documents
Séance de TP 2
Perceptron multicouches et descente de gradient
Le taux d'apprentissage contrôle la taille des pas que l'optimiseur effectue dans
l'espace des paramètres lors de la mise à jour des poids du réseau neuronal.
Une valeur de taux d'apprentissage trop élevée peut conduire à une convergence
rapide, mais risque également de sauter par-dessus le minimum global ou de diverger.
Une valeur trop faible peut entraîner une convergence lente.
Dans nos tests, on peut observer que pour learning_rate de 1e-2, le modèle converge
mieux que pour learning_rate de 1e-3, montrant ainsi l'impact significatif du taux
d'apprentissage sur les performances du modèle.
Le batch size détermine le nombre d'exemples de données utilisés dans une seule
itération de la descente de gradient.
Un batch size plus grand peut conduire à une convergence plus rapide, car il utilise
plus d'informations pour mettre à jour les poids du réseau à chaque itération.
Cependant, des batchs plus grands nécessitent également plus de mémoire et
peuvent être plus lents à calculer.
Dans nos tests, on constate que des batchs de taille 64 ont généralement des taux de
reconnaissance plus élevés que des batchs de taille 16, bien que cela puisse varier
selon d'autres facteurs.
En observant les résultats obtenus avec les deux configurations, nous pouvons mettre
en évidence l'apport de la fonction d'activation ReLU par rapport à la fonction
d'activation Sigmoid dans le contexte de l'apprentissage d'un MLP (Perceptron Multi-
Couches) pour la tâche de classification MNIST.
Vitesse de convergence :
En conclusion, sur la base des résultats que nous avons obtenus, ADAM semble être
une meilleure option que SGD en termes de vitesse de convergence et de robustesse
par rapport au choix du taux d'apprentissage pour notre tâche spécifique de
classification
4- Mettre en évidence l’influence de l’architecture et du nombre de paramètres
Pour l’architecture MLP comportant 3 couches 512 – 128 – 10 activation nn.ReLU()
Paramètres ADAM: un batch de 64, learning_rate de 1e-3, 20 époques on a :
Influence de l'architecture :
Nombre de paramètres :
Conclusion :