Etat de L'art 3-1

Etat de l'art
SEMAINE 03
KARABADJI Lina OUANES Sofia

Références (1) 02
Ref L'article Idées Principales Hybridations POC
Etude analytique (avantages, limites et objectives) MH: ILS

Hybridizing metaheuristics with machine learning for
des techniques de l'hybridation dans la litterature ML: Q-Learning PVC,
[1] combinatorial optimization: a taxonomy and learning PSFP
Etude Technique: ML dans MH pour la sélection de Q-learning au niveau de
to select operators
l'opérateur de recherche QILS l'étape de l'algorithme ILS
Initialisation
Machine learning at the service of meta-heuristics for Etude analytique et classification des différents
Evolution
[2] solving combinatorial optimization problems: A state- types d'hybridation ML-MH (avantages, POCs, défis, ---
fitness evaluation
of-the-art limites..)
Algorithm selection ..
Design des actions/etats du RL et des algorithme

A Review of Reinforcement Learning Based Intelligent basé sur RL pour les différents problèmes ML: RL Sched
[3]
Optimization for Manufacturing Scheduling d'ordonnancement. MHs uling
Hybridation RL et MH.
A reinforcement learning-based multi-agent

ML : RL VRPTW
[4] framework applied for solving routing and scheduling
UPMSP
MH: neighberhood
problems
Références (2) 03
A multi-action deep reinforcement learning Cadre Deep Reinforcement learning pour la

[5] framework for flexible Job-shop scheduling résolution du FJSP solution full DRL FJSP
problem
MH: MA
A machine-learning based memetic algorithm for the
Améliorer les performance de la recherche locale ML: classification.. MO-
[6] multi-objective permutation flowshop scheduling
multi-objectives des MAs en utilisant le ML, Recherche locale multi- PSFS
problem (2017)
objective
A review on the self and dual interactions between Les différentes intéraction ML-optimisation, et
[7] --- --
machine learning and optimisation ( 2019) analyse avantage/limites des approches.
Learning to select operators in meta-heuristics: An ML: Q-learning

integration of Q-learning into the iterated greedy MH: Itirative greedy
[8]
PFSP
algorithm for the permutation flowshop scheduling Selection d'opérateurs
problem (2022) Karimi et al de perturbation
Références (3)
Le RL pour un apprentissage enligne pour le

Minimizing mean weighted tardiness in unrelated Unrealt
problème unrelated PMSP, minimiser la moyenne actions: 4 piority rules
[9] parallel machine scheduling with reinforcement ed
des retards, différents types de jobs arrivent heuristics PMSP
learning 2012
indépendamment suivant un processus poissonien
Multi-objectifs optimisation basée sur un

A Cooperative Memetic Algorithm With Learning- RL & Memetic
apprentissage RL offline pour la sélection des Hybrid
[10] Based Agent for Energy-Aware Distributed Hybrid algorithm for operator
opérateurs d'un algorithme mémétique pour le FSPS
Flow-Shop Scheduling (2022) selection
problème du flow shop hybride
Deep Reinforcement Learning Based Adaptive Un algorithme évolutionnaire traitant les problèmes SOPs
DRL for operators
[11] Operator Selection for Evolutionary Multi-Objective d'optimisation multi-objectifs à l'aide d'une méthode and
selection
Optimization. (2022) basé sur le deep RL pour la sélection d'opérateurs. MOPs
An Adaptive Online Parameter Control Algorithm for

L'algorithme PSO incluant du RL pour le contrôle RL for parameters
[12] Particle Swarm Optimization Based on Reinforcement MOPs
des paramètres online. control
Learning. (2019)
Références (3)
RL pour la sélection
A reinforcement learning approach to parameter Le RL pour un apprentissage enligne pour la Dynami
[13] des paramètres du c JSP
estimation in dynamic job shop scheduling selection des paramètres pour le Dynamic JSP
VNS
[14]

[15]

[16]

[9]
Minimizing mean weighted tardiness in

unrelated parallel machine scheduling with
reinforcement learning
Zhicong Zhang et al. 2012
01
Définition du problème: Dynamic
unrelated PMSP
Il existe 3 types de problèmes de Machine parallèles

Machines parallèles indépendantes ou non liées
n différents types de jobs, qui arrivent d'une façon dynamique suivant un
processus de poisson, et m machines
Arrival time et Due Date sont stochastique se qui favorise l'utilisation du RL pour
résoudre ce problème
02
Solution proposée
Le problème d’ordonnancement est reformulé en un problème de RL
La difficulté principale est la construction des états, les actions et la fonction
récompense pour le RL, Prior domain knowledge ( connaissance a priori du
domaine ) doit être utilisée dans le RL.
03
RL(1):
Etats :
Il est préférable de définir les états d'une manières générale pour qu’on puisse
généraliser pour plusieurs instances du problèmes,
3m+8n state features in total
La transition entre les états se fait seulement quand un nouveau job arrive ou
bien un job à terminé son exécution.
Actions : (2 types)
common actions: indépendantes de l'environnement.
actions related to specific states pour exploiter l'expérience afin de résoudre le
problème d'ordonnancement
5 actions:
action1: ne rien sélectionner
Le reste: 4 heuristiques de règles de priorité 04
RL(2):
Fonction récompense: doit suivre plusieurs disciplines:

elle doit indiquer l’impact instantané d’une action (pour lier une action à une
récompense immédiate),
récompense accumulée pour indiquer la valeur de la fonction objective :
l’agent reçoit une récompense moyenne plus élevée pour moins de retard
moyen
peut être calculée, et peut être appliquée pour plusieurs problèmes de taille
différentes.
05
RL(3):
STATE FEATURES:
Les 4 premiers décrivent l'état de l'environnement, informations sur les machines,
et les jobs exécutés sur chaque machine.
f1: décrit le nombre de job en attente de type Tj (0, 2^-1/NJj)
f2: machine idle ou occupée (0, j/n)
f3: le temps d'exécution restant pout je job Jj,k (zi/pj)
f4: (due date du job -t)/pj : tightness of due date allowance.
Les 4 restants décrivent tightness of due date allowance of the waiting jobs:
f5: minimum de tightness of duedate allowance des jobs en attente de type Tj
f6: le maximum
f7: la moyenne
f8: L'intervalle de temps indicant tightness of dd allowance pour un job
06
RL(3):
ACTIONS: LES 4 HEURSTIQUES:
WSPT: choisir en ordre non-décroissant un job selon
WMDD:
ATC: ordre non-croissant
WCOVERT: ordre non-croissant
07
Tests et résultats :
L'objectif du RL est de maximiser la récompense moyenne dans
un horizon infini -> impossible .
Le problème test spécifie le nombre de machine, et le types de
job
Chaque problème génère 50 instances
Chaque instance génère 1000 jobs par épisode
L'épisode est le processus de génération d'un ordonnancement
de 1000 jobs dans une instance,
Le système RL est entrainé en exécutant un certain nombre
d'épisodes avant de résoudre chaque instance de test.
08
L'algorithme R-learning apprend une politique spécifique à un

domaine (domain specific policy) à partir des épisodes
précédents, puis l'applique pour résoudre les épisodes futures.
Le RL donne des meilleurs résultats comparé par les 4

heuristiques.
09
[10]
A Cooperative Memetic Algorithm With

Learning-Based Agent for Energy-Aware
Distributed Hybrid Flow-Shop Scheduling
Jing-Jing Wang et al juin 2022
10
Problem: Energy-Aware Distributed Hybrid
Flow Shop Scheduling
Deux objectifs:
Minimisation du makespan
Minimisation de l'énergie
Flow shop hybride extension du flow shop classiques, mais a certain stages on
introduit les machines parallèles pour incrémenter la production.
Combinaison du flow shop et machines parallèles qui doit déterminer à la fois:

L'affectation des jobs aux machines
La séquences des jobs sur chaque machine
11
Description du problème: EADHFSP
F usines hétérogènes avec différentes capacités de traitement.

Chaque usine est un flow shop hybride avec m stages séquentiels.
Lf,k machines parallèles uniformes a chaque stage k de chaque usine f.
Chaque machine a une vitesse de traitement, et une consommation d'energie.
12
Description du problème EADHFSP(Exemple)
[10]
13
Solution proposée [10]
14
Solution proposée:
1. Définir un encodage-décodage des solution.

2. Initialisation hybride: (2 heuristique)
a. Modified NEH: local oprimality
b. Earliest Completion Time: diversification
3. Guider la solution pour choisir l'opérateur adéquat pour l'améliorer en utilisant
policy agent based on RL
4. Intensification locale pour une meilleure exploitation
5. Energy saving, 2 stratégies de conservation de l'Energie sont utilisées pour
améliorer les solutions non-dominantes
15
Policy agent:
Etats : Chaque état inclut :

caractéristiques de l'instance,
caractéristique de la solution courante
l'historique des actions-effets.
Actions : (3 classes)
- Inner Adjustement ( Séquence de jobs pour une usine)
- Inter Adjustement(Séquence de jobs entre les usine)
- Weight adjustement ( policy network)
Récompense:
si la solution obtenue via l'application de l'opérateur sélectionné domine
récompense +1
-1 sinon
16
Policy Network[10]:
17
[11]
Deep Reinforcement Learning Based

Adaptive Operator Selection for
Evolutionary Multi-Objective Optimization.
Ye Tian et al. 2022
18
Les principales contributions de cet
article :
Une méthode de sélection d'opérateurs basée sur l'apprentissage par
renforcement est proposée. (attribution de crédit et sélection d'opérateurs)
Un MOEA est développé en intégrant la méthode de sélection d'opérateur

proposée dans un MOEA basé sur la décomposition avec allocation dynamique des
ressources.
19
La solution proposée :
20
21
Complexité et résultats :
O(ND^2).
En général, le MOEA/D-DQN proposé montre la meilleure performance pour

18 des 34 MOPs.
22
[12]
An Adaptive Online Parameter Control

Algorithm for Particle Swarm Optimization
Based on Reinforcement Learning.
Yaxian Liu et al. 2019
23
Les méthodes de contrôle de
paramètres existantes :
Les méthodes déterministes.
Le contrôle auto-adaptatif des paramètres.
Le contrôle adaptatif des paramètres.
24
Obstacles par rapport aux travaux
existants :
les paramètres des EA doivent non seulement varier en fonction des différents
problèmes d'optimisation, mais aussi changer avec l'exécution des algorithmes.
à proprement parler, le contrôle adaptatif des paramètres n'a pas encore été
réalisé, car le mécanisme de détermination de l'ampleur de l'ajustement est
encore déterministe.
comment éviter d'introduire de nouveaux paramètres et réduire la complexité

temporelle et spatiale.
25
La solution proposée : L’algorithme
QLPSO :
26
QLPSO :
Les états
27
QLPSO :
Les actions
28
QLPSO :
La Q table
29
QLPSO :
La fonction récompense
30
Afin de vérifier la performance de l'algorithme QLPSO, des expériencessont faites

sous deux aspects : PSO mono-objectif et PSO multi-objectif.
Dans chaque partie, nous comparons les performances de QLPSO avec celles du
PSO linéaire à poids d'inertie décroissant (LPSO) et le PSO standard (SPSO).
31
[13]
A reinforcement learning approach to

parameter estimation in dynamic job shop
scheduling
Jamal Sharabi et al. 2017
32
VNS.
RL.
33
VNS :
34
RL:
Les Etats:
35
RL:
Les Actions:
36
Le framework proposé :
37
38
Merci.
Merci.
Les objectifs de la semaine :
01 Chercher s'il existe des travaux sur la sélection d'opérateurs

appliqués aux problèmes du job shop ou des machines parallèles.
02 Chercher s'il existe des travaux combinant la sélection d'opérateurs et

la calibrage des paramètres.
01

Etat de L'art 3-1

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Etat de L'art 3-1

Transféré par

Droits d'auteur :

Formats disponibles

Etat de l'art

Ref L'article Idées Principales Hybridations POC

Etude analytique (avantages, limites et objectives) MH: ILS

Design des actions/etats du RL et des algorithme

A reinforcement learning-based multi-agent

Ref L'article Idées Principales Hybridations POC

A multi-action deep reinforcement learning Cadre Deep Reinforcement learning pour la

Learning to select operators in meta-heuristics: An ML: Q-learning

Le RL pour un apprentissage enligne pour le

Multi-objectifs optimisation basée sur un

An Adaptive Online Parameter Control Algorithm for

Minimizing mean weighted tardiness in

Zhicong Zhang et al. 2012

Il existe 3 types de problèmes de Machine parallèles

Fonction récompense: doit suivre plusieurs disciplines:

ATC: ordre non-croissant

WCOVERT: ordre non-croissant

L'algorithme R-learning apprend une politique spécifique à un

Le RL donne des meilleurs résultats comparé par les 4

A Cooperative Memetic Algorithm With

Jing-Jing Wang et al juin 2022

Combinaison du flow shop et machines parallèles qui doit déterminer à la fois:

F usines hétérogènes avec différentes capacités de traitement.

1. Définir un encodage-décodage des solution.

Etats : Chaque état inclut :

Deep Reinforcement Learning Based

Ye Tian et al. 2022

Un MOEA est développé en intégrant la méthode de sélection d'opérateur

En général, le MOEA/D-DQN proposé montre la meilleure performance pour

An Adaptive Online Parameter Control

Yaxian Liu et al. 2019

Le contrôle auto-adaptatif des paramètres.

Le contrôle adaptatif des paramètres.

comment éviter d'introduire de nouveaux paramètres et réduire la complexité

Afin de vérifier la performance de l'algorithme QLPSO, des expériencessont faites

A reinforcement learning approach to

Jamal Sharabi et al. 2017

01 Chercher s'il existe des travaux sur la sélection d'opérateurs

02 Chercher s'il existe des travaux combinant la sélection d'opérateurs et

Vous aimerez peut-être aussi