Vous êtes sur la page 1sur 47

Etat de l'art

SEMAINE 03
KARABADJI Lina OUANES Sofia

Références (1) 02

Ref L'article Idées Principales Hybridations POC

Etude analytique (avantages, limites et objectives) MH: ILS


Hybridizing metaheuristics with machine learning for
des techniques de l'hybridation dans la litterature ML: Q-Learning PVC,
[1] combinatorial optimization: a taxonomy and learning PSFP
Etude Technique: ML dans MH pour la sélection de Q-learning au niveau de
to select operators
l'opérateur de recherche QILS l'étape de l'algorithme ILS

Initialisation
Machine learning at the service of meta-heuristics for Etude analytique et classification des différents
Evolution
[2] solving combinatorial optimization problems: A state- types d'hybridation ML-MH (avantages, POCs, défis, ---
fitness evaluation
of-the-art limites..)
Algorithm selection ..

Design des actions/etats du RL et des algorithme


A Review of Reinforcement Learning Based Intelligent basé sur RL pour les différents problèmes ML: RL Sched
[3]
Optimization for Manufacturing Scheduling d'ordonnancement. MHs uling
Hybridation RL et MH.

A reinforcement learning-based multi-agent


ML : RL VRPTW
[4] framework applied for solving routing and scheduling
UPMSP
MH: neighberhood
problems
Références (2) 03

Ref L'article Idées Principales Hybridations POC

A multi-action deep reinforcement learning Cadre Deep Reinforcement learning pour la


[5] framework for flexible Job-shop scheduling résolution du FJSP solution full DRL FJSP
problem

MH: MA
A machine-learning based memetic algorithm for the
Améliorer les performance de la recherche locale ML: classification.. MO-
[6] multi-objective permutation flowshop scheduling
multi-objectives des MAs en utilisant le ML, Recherche locale multi- PSFS
problem (2017)
objective

A review on the self and dual interactions between Les différentes intéraction ML-optimisation, et
[7] --- --
machine learning and optimisation ( 2019) analyse avantage/limites des approches.

Learning to select operators in meta-heuristics: An ML: Q-learning


integration of Q-learning into the iterated greedy MH: Itirative greedy
[8]
PFSP
algorithm for the permutation flowshop scheduling Selection d'opérateurs
problem (2022) Karimi et al de perturbation
Références (3)
Ref L'article Idées Principales Hybridations POC

Le RL pour un apprentissage enligne pour le


Minimizing mean weighted tardiness in unrelated Unrealt
problème unrelated PMSP, minimiser la moyenne actions: 4 piority rules
[9] parallel machine scheduling with reinforcement ed
des retards, différents types de jobs arrivent heuristics PMSP
learning 2012
indépendamment suivant un processus poissonien

Multi-objectifs optimisation basée sur un


A Cooperative Memetic Algorithm With Learning- RL & Memetic
apprentissage RL offline pour la sélection des Hybrid
[10] Based Agent for Energy-Aware Distributed Hybrid algorithm for operator
opérateurs d'un algorithme mémétique pour le FSPS
Flow-Shop Scheduling (2022) selection
problème du flow shop hybride

Deep Reinforcement Learning Based Adaptive Un algorithme évolutionnaire traitant les problèmes SOPs
DRL for operators
[11] Operator Selection for Evolutionary Multi-Objective d'optimisation multi-objectifs à l'aide d'une méthode and
selection
Optimization. (2022) basé sur le deep RL pour la sélection d'opérateurs. MOPs

An Adaptive Online Parameter Control Algorithm for


L'algorithme PSO incluant du RL pour le contrôle RL for parameters
[12] Particle Swarm Optimization Based on Reinforcement MOPs
des paramètres online. control
Learning. (2019)
Références (3)
Ref L'article Idées Principales Hybridations POC

RL pour la sélection
A reinforcement learning approach to parameter Le RL pour un apprentissage enligne pour la Dynami
[13] des paramètres du c JSP
estimation in dynamic job shop scheduling selection des paramètres pour le Dynamic JSP
VNS

[14]


[15]


[16]


[9]

Minimizing mean weighted tardiness in


unrelated parallel machine scheduling with
reinforcement learning

Zhicong Zhang et al. 2012

01
Définition du problème: Dynamic
unrelated PMSP

Il existe 3 types de problèmes de Machine parallèles


Machines parallèles indépendantes ou non liées
n différents types de jobs, qui arrivent d'une façon dynamique suivant un
processus de poisson, et m machines
Arrival time et Due Date sont stochastique se qui favorise l'utilisation du RL pour
résoudre ce problème

02
Solution proposée
Le problème d’ordonnancement est reformulé en un problème de RL
La difficulté principale est la construction des états, les actions et la fonction
récompense pour le RL, Prior domain knowledge ( connaissance a priori du
domaine ) doit être utilisée dans le RL.

03
RL(1):
Etats :
Il est préférable de définir les états d'une manières générale pour qu’on puisse
généraliser pour plusieurs instances du problèmes,
3m+8n state features in total
La transition entre les états se fait seulement quand un nouveau job arrive ou
bien un job à terminé son exécution.
Actions : (2 types)
common actions: indépendantes de l'environnement.
actions related to specific states pour exploiter l'expérience afin de résoudre le
problème d'ordonnancement
5 actions:
action1: ne rien sélectionner
Le reste: 4 heuristiques de règles de priorité 04
RL(2):

Fonction récompense: doit suivre plusieurs disciplines:


elle doit indiquer l’impact instantané d’une action (pour lier une action à une
récompense immédiate),
récompense accumulée pour indiquer la valeur de la fonction objective :
l’agent reçoit une récompense moyenne plus élevée pour moins de retard
moyen
peut être calculée, et peut être appliquée pour plusieurs problèmes de taille
différentes.

05
RL(3):
STATE FEATURES:
Les 4 premiers décrivent l'état de l'environnement, informations sur les machines,
et les jobs exécutés sur chaque machine.
f1: décrit le nombre de job en attente de type Tj (0, 2^-1/NJj)
f2: machine idle ou occupée (0, j/n)
f3: le temps d'exécution restant pout je job Jj,k (zi/pj)
f4: (due date du job -t)/pj : tightness of due date allowance.
Les 4 restants décrivent tightness of due date allowance of the waiting jobs:
f5: minimum de tightness of duedate allowance des jobs en attente de type Tj
f6: le maximum
f7: la moyenne
f8: L'intervalle de temps indicant tightness of dd allowance pour un job
06
RL(3):
ACTIONS: LES 4 HEURSTIQUES:
WSPT: choisir en ordre non-décroissant un job selon

WMDD:

ATC: ordre non-croissant

WCOVERT: ordre non-croissant

07
Tests et résultats :
L'objectif du RL est de maximiser la récompense moyenne dans
un horizon infini -> impossible .
Le problème test spécifie le nombre de machine, et le types de
job
Chaque problème génère 50 instances
Chaque instance génère 1000 jobs par épisode
L'épisode est le processus de génération d'un ordonnancement
de 1000 jobs dans une instance,
Le système RL est entrainé en exécutant un certain nombre
d'épisodes avant de résoudre chaque instance de test.
08
Tests et résultats :

L'algorithme R-learning apprend une politique spécifique à un


domaine (domain specific policy) à partir des épisodes
précédents, puis l'applique pour résoudre les épisodes futures.

Le RL donne des meilleurs résultats comparé par les 4


heuristiques.

09
[10]

A Cooperative Memetic Algorithm With


Learning-Based Agent for Energy-Aware
Distributed Hybrid Flow-Shop Scheduling

Jing-Jing Wang et al juin 2022

10
Problem: Energy-Aware Distributed Hybrid
Flow Shop Scheduling
Deux objectifs:
Minimisation du makespan
Minimisation de l'énergie

Flow shop hybride extension du flow shop classiques, mais a certain stages on
introduit les machines parallèles pour incrémenter la production.

Combinaison du flow shop et machines parallèles qui doit déterminer à la fois:


L'affectation des jobs aux machines
La séquences des jobs sur chaque machine
11
Description du problème: EADHFSP

F usines hétérogènes avec différentes capacités de traitement.


Chaque usine est un flow shop hybride avec m stages séquentiels.
Lf,k machines parallèles uniformes a chaque stage k de chaque usine f.
Chaque machine a une vitesse de traitement, et une consommation d'energie.

12
Description du problème EADHFSP(Exemple)
[10]

13
Solution proposée [10]

14
Solution proposée:

1. Définir un encodage-décodage des solution.


2. Initialisation hybride: (2 heuristique)
a. Modified NEH: local oprimality
b. Earliest Completion Time: diversification
3. Guider la solution pour choisir l'opérateur adéquat pour l'améliorer en utilisant
policy agent based on RL
4. Intensification locale pour une meilleure exploitation
5. Energy saving, 2 stratégies de conservation de l'Energie sont utilisées pour
améliorer les solutions non-dominantes

15
Policy agent:

Etats : Chaque état inclut :


caractéristiques de l'instance,
caractéristique de la solution courante
l'historique des actions-effets.
Actions : (3 classes)
- Inner Adjustement ( Séquence de jobs pour une usine)
- Inter Adjustement(Séquence de jobs entre les usine)
- Weight adjustement ( policy network)
Récompense:
si la solution obtenue via l'application de l'opérateur sélectionné domine
récompense +1
-1 sinon
16
Policy Network[10]:

17
[11]

Deep Reinforcement Learning Based


Adaptive Operator Selection for
Evolutionary Multi-Objective Optimization.

Ye Tian et al. 2022

18
Les principales contributions de cet
article :
Une méthode de sélection d'opérateurs basée sur l'apprentissage par
renforcement est proposée. (attribution de crédit et sélection d'opérateurs)

Un MOEA est développé en intégrant la méthode de sélection d'opérateur


proposée dans un MOEA basé sur la décomposition avec allocation dynamique des
ressources.

19
La solution proposée :

20
La solution proposée :

21
Complexité et résultats :

O(ND^2).

En général, le MOEA/D-DQN proposé montre la meilleure performance pour


18 des 34 MOPs.

22
[12]

An Adaptive Online Parameter Control


Algorithm for Particle Swarm Optimization
Based on Reinforcement Learning.

Yaxian Liu et al. 2019

23
Les méthodes de contrôle de
paramètres existantes :
Les méthodes déterministes.

Le contrôle auto-adaptatif des paramètres.

Le contrôle adaptatif des paramètres.

24
Obstacles par rapport aux travaux
existants :
les paramètres des EA doivent non seulement varier en fonction des différents
problèmes d'optimisation, mais aussi changer avec l'exécution des algorithmes.

à proprement parler, le contrôle adaptatif des paramètres n'a pas encore été
réalisé, car le mécanisme de détermination de l'ampleur de l'ajustement est
encore déterministe.

comment éviter d'introduire de nouveaux paramètres et réduire la complexité


temporelle et spatiale.

25
La solution proposée : L’algorithme
QLPSO :

26
La solution proposée : L’algorithme
QLPSO :
Les états

27
La solution proposée : L’algorithme
QLPSO :
Les actions

28
La solution proposée : L’algorithme
QLPSO :
La Q table

29
La solution proposée : L’algorithme
QLPSO :
La fonction récompense

30
Tests et résultats :

Afin de vérifier la performance de l'algorithme QLPSO, des expériencessont faites


sous deux aspects : PSO mono-objectif et PSO multi-objectif.

Dans chaque partie, nous comparons les performances de QLPSO avec celles du
PSO linéaire à poids d'inertie décroissant (LPSO) et le PSO standard (SPSO).

31
[13]

A reinforcement learning approach to


parameter estimation in dynamic job shop
scheduling

Jamal Sharabi et al. 2017

32
La solution proposée :

VNS.

RL.

33
VNS :

34
RL:

Les Etats:

35
RL:

Les Actions:

36
Le framework proposé :

37
Tests et résultats :

38
Merci.
Merci.
Les objectifs de la semaine :

01 Chercher s'il existe des travaux sur la sélection d'opérateurs


appliqués aux problèmes du job shop ou des machines parallèles.

02 Chercher s'il existe des travaux combinant la sélection d'opérateurs et


la calibrage des paramètres.

01

Vous aimerez peut-être aussi