Vous êtes sur la page 1sur 3

L’état de l’art propose de nombreuses modèles à base d’apprentissage automatique par

renforcement permettant de traiter diverses variantes du TSP, avec des premiers résultats
intéressants avec des instances de taille réduite. En effet notre modele proposé ,le Ptr-Net,
formé sur des données optimales avec 5 à 20 villes donne des résultats pratiquement parfaits
pour n = 25, et bons pour n = 30. ceci est illustré par le Figure 1 ci-dessous .

Figure 1 : Évolution de notre modèle

Figure 1 : Evolution du modèle Ptr-N

Enfaite , Notre Méthode présente une nouvelle architecture que nous appelons Pointer Net,
qui est simple et efficace pour la résolution des problèmes d'optimisation combinatoire,
particulièrement le problème du voyageur de commerce (TSP) qui est un problème
fondamental de la représentation des variables de longueur variable, à l'aide des réseaux de
neurones et de l'apprentissage par renforcement en construisant un réseau neuronal récurrent
qui, étant donné un ensemble de coordonnées de villes, prédit une distribution sur différentes
permutations de villes en utilisant une distribution de probabilité softmax comme «pointeur»..
Ainsi , pour l’optimisation des paramètres du réseau neuronal récurrent , la méthode de
gradient de politique( policy gradient) a été utilisée. que nous appelons Pointer Net, qui est
simple et efficace.

Nous comparons par suite l'apprentissage des paramètres de réseau sur un ensemble de
graphiques d'entraînement à leur apprentissage sur des graphiques de test individuels. ceci
nous permettons de conclure que l'optimisation combinatoire neurale permet d'obtenir des
résultats presque optimaux sur des graphes euclidiens 2D avec jusqu'à 100 nœuds.

On remarque dans cette Méthode , une nette dominance du paradigme de l’apprentissage par
renforcement. Celui-ci permet de s’affranchir du besoin de constituer une base de données
d’instances résolues. Cette dernière est difficile à construire compte tenu de la difficulté
d’accès aux labels optimaux, principalement quand la taille du problème augmente.
Aussi que , Pour notre travail , la méthode policy gradient (principalement REINFORCE)
dominent les méthodes dites value based . Bien que la méthode policy gradient nécessitent
plus d’exemples d’entraînement, elles ont l’avantage d’apprendre la politique de résolution
directement et d’épouser le cadre probabiliste considéré dans les modèles Séquence à
Séquence. Une autre préférence porte sur le schéma global de résolution ;

le modèle considère toujours une phase d’encodage des données en entrée suivie d’un
décodage qui produira la solution.

Contrairement aux autres architectures, les entrées du réseau actor utilisé sont les coordonnées
des villes sans plongement préalable dans un espace latent de dimension supérieure. Ce choix
est justifié par le fait que cela permet d’obtenir une architecture du réseau de neurones
relativement plus petite que celle utilisant des plongements. Dans la phase d’entraînement,
une procédure d’échantillonnage tire plusieurs tours pour une instance donnée et garde le tour
de longueur minimale pour faire les mises à jour des réseaux de neurones actor et critic. Les
tests sur des instances à 10, 20 et 50 villes montrent que la méthode est compétitive avec le
modèle Pointer Network ; elle présente néanmoins le désavantage de ne pas être invariante à
la taille de l’instance puisque la matrice de transition et le réseau acter dépendent de celle-ci.

Nos résultats démontrent donc qu'une approche purement basée sur les données peut
apprendre des solutions approximatives à des problèmes insolubles sur le plan informatique.

Comme l’ont montré certains travaux, une coopération entre les algorithmes issus de la RO et
de l’apprentissage automatique peut s’avérer plus fructueuse que l’utilisation d’un modèle
d’apprentissage automatique de bout en bout. On peut donc distinguer les approches
constructives qui favorisent un apprentissage de bout en bout et les approches d’amélioration
qui suggèrent d’employer le modèle dans un schéma de résolution plus global où l’algorithme
d’apprentissage aide la prise de décision ; e.g. la sélection de la région sur laquelle effectuer
une recherche locale.

Une piste de recherche pourrait considérer des schémas d’hybridation plus sophistiqués à la
manière dont ceux-ci sont pensés pour les métaheuristiques .

Parmi les nombreux algorithmes d’inférence développés, le plus élémentaire exploitant un


décodage glouton.
D’autres pistes pour les algorithmes d’inférences ont été imaginées qui continue d’optimiser
la politique du modèle en phase d’inférence. D’autres Méthodes d’amélioration méritent
d’être étudiés, et leurs liens avec le modèle, prédisant très souvent les distributions de
probabilités, mieux compris.

Motivés par les progrès récents de l'apprentissage séquence à séquence , les réseaux de
neurones font donc à nouveau l'objet d'études d'optimisation dans divers domaines.

Vous aimerez peut-être aussi