Académique Documents
Professionnel Documents
Culture Documents
Etat de L'art 3-1
Etat de L'art 3-1
SEMAINE 03
KARABADJI Lina OUANES Sofia
Références (1) 02
Initialisation
Machine learning at the service of meta-heuristics for Etude analytique et classification des différents
Evolution
[2] solving combinatorial optimization problems: A state- types d'hybridation ML-MH (avantages, POCs, défis, ---
fitness evaluation
of-the-art limites..)
Algorithm selection ..
MH: MA
A machine-learning based memetic algorithm for the
Améliorer les performance de la recherche locale ML: classification.. MO-
[6] multi-objective permutation flowshop scheduling
multi-objectives des MAs en utilisant le ML, Recherche locale multi- PSFS
problem (2017)
objective
A review on the self and dual interactions between Les différentes intéraction ML-optimisation, et
[7] --- --
machine learning and optimisation ( 2019) analyse avantage/limites des approches.
Deep Reinforcement Learning Based Adaptive Un algorithme évolutionnaire traitant les problèmes SOPs
DRL for operators
[11] Operator Selection for Evolutionary Multi-Objective d'optimisation multi-objectifs à l'aide d'une méthode and
selection
Optimization. (2022) basé sur le deep RL pour la sélection d'opérateurs. MOPs
RL pour la sélection
A reinforcement learning approach to parameter Le RL pour un apprentissage enligne pour la Dynami
[13] des paramètres du c JSP
estimation in dynamic job shop scheduling selection des paramètres pour le Dynamic JSP
VNS
[14]
[15]
[16]
[9]
01
Définition du problème: Dynamic
unrelated PMSP
02
Solution proposée
Le problème d’ordonnancement est reformulé en un problème de RL
La difficulté principale est la construction des états, les actions et la fonction
récompense pour le RL, Prior domain knowledge ( connaissance a priori du
domaine ) doit être utilisée dans le RL.
03
RL(1):
Etats :
Il est préférable de définir les états d'une manières générale pour qu’on puisse
généraliser pour plusieurs instances du problèmes,
3m+8n state features in total
La transition entre les états se fait seulement quand un nouveau job arrive ou
bien un job à terminé son exécution.
Actions : (2 types)
common actions: indépendantes de l'environnement.
actions related to specific states pour exploiter l'expérience afin de résoudre le
problème d'ordonnancement
5 actions:
action1: ne rien sélectionner
Le reste: 4 heuristiques de règles de priorité 04
RL(2):
05
RL(3):
STATE FEATURES:
Les 4 premiers décrivent l'état de l'environnement, informations sur les machines,
et les jobs exécutés sur chaque machine.
f1: décrit le nombre de job en attente de type Tj (0, 2^-1/NJj)
f2: machine idle ou occupée (0, j/n)
f3: le temps d'exécution restant pout je job Jj,k (zi/pj)
f4: (due date du job -t)/pj : tightness of due date allowance.
Les 4 restants décrivent tightness of due date allowance of the waiting jobs:
f5: minimum de tightness of duedate allowance des jobs en attente de type Tj
f6: le maximum
f7: la moyenne
f8: L'intervalle de temps indicant tightness of dd allowance pour un job
06
RL(3):
ACTIONS: LES 4 HEURSTIQUES:
WSPT: choisir en ordre non-décroissant un job selon
WMDD:
07
Tests et résultats :
L'objectif du RL est de maximiser la récompense moyenne dans
un horizon infini -> impossible .
Le problème test spécifie le nombre de machine, et le types de
job
Chaque problème génère 50 instances
Chaque instance génère 1000 jobs par épisode
L'épisode est le processus de génération d'un ordonnancement
de 1000 jobs dans une instance,
Le système RL est entrainé en exécutant un certain nombre
d'épisodes avant de résoudre chaque instance de test.
08
Tests et résultats :
09
[10]
10
Problem: Energy-Aware Distributed Hybrid
Flow Shop Scheduling
Deux objectifs:
Minimisation du makespan
Minimisation de l'énergie
Flow shop hybride extension du flow shop classiques, mais a certain stages on
introduit les machines parallèles pour incrémenter la production.
12
Description du problème EADHFSP(Exemple)
[10]
13
Solution proposée [10]
14
Solution proposée:
15
Policy agent:
17
[11]
18
Les principales contributions de cet
article :
Une méthode de sélection d'opérateurs basée sur l'apprentissage par
renforcement est proposée. (attribution de crédit et sélection d'opérateurs)
19
La solution proposée :
20
La solution proposée :
21
Complexité et résultats :
O(ND^2).
22
[12]
23
Les méthodes de contrôle de
paramètres existantes :
Les méthodes déterministes.
24
Obstacles par rapport aux travaux
existants :
les paramètres des EA doivent non seulement varier en fonction des différents
problèmes d'optimisation, mais aussi changer avec l'exécution des algorithmes.
à proprement parler, le contrôle adaptatif des paramètres n'a pas encore été
réalisé, car le mécanisme de détermination de l'ampleur de l'ajustement est
encore déterministe.
25
La solution proposée : L’algorithme
QLPSO :
26
La solution proposée : L’algorithme
QLPSO :
Les états
27
La solution proposée : L’algorithme
QLPSO :
Les actions
28
La solution proposée : L’algorithme
QLPSO :
La Q table
29
La solution proposée : L’algorithme
QLPSO :
La fonction récompense
30
Tests et résultats :
Dans chaque partie, nous comparons les performances de QLPSO avec celles du
PSO linéaire à poids d'inertie décroissant (LPSO) et le PSO standard (SPSO).
31
[13]
32
La solution proposée :
VNS.
RL.
33
VNS :
34
RL:
Les Etats:
35
RL:
Les Actions:
36
Le framework proposé :
37
Tests et résultats :
38
Merci.
Merci.
Les objectifs de la semaine :
01