Elevadores and Reinforcement Learning

Otimizac
ao do Funcionamento de Elevadores Atrav

es de Reinforcement Learning
ML
Otimizacao do Funcionamento de Elevadores

Atraves de Reinforcement Learning
Andre Peric Tavares
E-mail: andre.peric@ufabc.edu.br
25 de maio de 2014
Andr
e Peric Tavares
Aprendizado de M
aquina
Otimizac
ML
Introducao
A natureza do aprendizado esta intimamente ligada com a interacao com

o ambiente.
Andr
e Peric Tavares
Aprendizado de M
aquina
Otimizac
ML
Introducao

o ambiente.
Exemplos:
(a) Crianca evita repetir ac
oes que resultaram em dor.
Andr
e Peric Tavares
Aprendizado de M
aquina
Otimizac
ML
Introducao

o ambiente.
Exemplos:
(a) Crianca evita repetir ac
oes que resultaram em dor. o do jogo, decide
jogada e aprende com os resultados futuros.
(b) Jogador de xadrez verifica estado atual do jogo, toma acao e aprende
com suas consequencias.
Andr
e Peric Tavares
Aprendizado de M
aquina
Otimizac
ML
Behaviorismo
Behaviorismo
Enfase
na interacao com o ambiente e conceito de reforco.
Andr
e Peric Tavares
Aprendizado de M
aquina
Otimizac
ML
Behaviorismo
Behaviorismo
Enfase
Reforco e uma consequencia que ira estimular o comportamento futuro.
Andr
e Peric Tavares
Aprendizado de M
aquina
Otimizac
ML
Behaviorismo
Behaviorismo
Enfase
Reforco e uma consequencia que ira estimular o comportamento futuro.
https://www.youtube.com/watch?v=tV7Zp2B_mt8
Andr
e Peric Tavares
Aprendizado de M
aquina
Otimizac
ML
Motivacao
Abordagem computacional ao aprendizado por interacao.
Andr
e Peric Tavares
Aprendizado de M
aquina
Otimizac
ML
Motivacao
Abordagem computacional ao aprendizado por interacao.

Objetivo: Modelar um sistema de controle de elevadores atraves do RL.
Andr
e Peric Tavares
Aprendizado de M
aquina
Otimizac
ML
MDP
Um Markov decision processes e uma tupla (S, A, {Psa }, , R) em que:
Andr
e Peric Tavares
Aprendizado de M
aquina
Otimizac
ML
MDP

(a) S e o conjunto de estados. Cada elemento de S representa uma
caracterstica do estado.
Andr
e Peric Tavares
Aprendizado de M
aquina
Otimizac
ML
MDP

(b) A e o conjunto de ac
oes.
Andr
e Peric Tavares
Aprendizado de M
aquina
Otimizac
ML
MDP

oes.
(c) {Psa } sao as probabilidades de estado de transic
ao, isto e, a
distribuicao de probabilidades para cada mudanca de estado atraves
de uma acao.
Andr
e Peric Tavares
Aprendizado de M
aquina
Otimizac
ML
MDP

oes.
ao, isto e, a
de uma acao.
(d) e o fator de desconto e pertence a [0, 1).
Andr
e Peric Tavares
Aprendizado de M
aquina
Otimizac
ML
MDP

oes.
ao, isto e, a
de uma acao.
(d) e o fator de desconto e pertence a [0, 1).
(e) R e a funcao recompensa, que leva os elementos de S A a R, cujo
domnio tambem pode ser descrito como apenas S.
Andr
e Peric Tavares
Aprendizado de M
aquina
Otimizac
ML
MPD
Mecanica do MPD:
s0
Andr
e Peric Tavares
Aprendizado de M
aquina
Otimizac
ML
MPD
Mecanica do MPD:
s0 a0
Andr
e Peric Tavares
Aprendizado de M
aquina
Otimizac
ML
MPD
Mecanica do MPD:
s0 a0 s1
Andr
e Peric Tavares
Aprendizado de M
aquina
Otimizac
ML
MPD
Mecanica do MPD:
s0 a0 s1 a1
Andr
e Peric Tavares
Aprendizado de M
aquina
Otimizac
ML
MPD
Mecanica do MPD:
s0 a0 s1 a1 s2
Andr
e Peric Tavares
Aprendizado de M
aquina
Otimizac
ML
MPD
Mecanica do MPD:
s0 a0 s1 a1 s2 . . .
Andr
e Peric Tavares
Aprendizado de M
aquina
Otimizac
ML
Recompensa
Recompensa total torna-se

R(s0 ) + R(s1 ) + 2 R(s2 ) + ...
Andr
e Peric Tavares
Aprendizado de M
aquina
Otimizac
ML
Recompensa
Recompensa total torna-se

R(s0 ) + R(s1 ) + 2 R(s2 ) + ...
Explicacao: O presente e mais importante do que o futuro.
Andr
e Peric Tavares
Aprendizado de M
aquina
Otimizac
ML
Valor e funcao recompensa
Uma poltica mapeia cada elemento do onjunto de estados S a uma

acao a A
Valor do estado s sob a poltica , denotado por V , que e a esperanca
da soma das recompensas:
V (s) = E [R(s0 ) + R(s1 ) + 2 R(s2 ) + ...]
possvel provar que a funcao acima satisfaz as Equacoes de Bellman:
E
X
V (s) = R(s) +
P(s 0 |s, (s))V (s 0 ).
s0
Andr
e Peric Tavares
Aprendizado de M
aquina
Otimizac
ML
Condicoes
Restric
oes (descer estando no terreo, subir estando no u
ltimo, etc.)
Andr
e Peric Tavares
Aprendizado de M
aquina
Otimizac
ML
Condicoes
Restric
ltimo, etc.)
No m
aximo um passageiro aguarda por andar.
Andr
e Peric Tavares
Aprendizado de M
aquina
Otimizac
ML
Condicoes
Restric
ltimo, etc.)
No m
aximo um passageiro aguarda por andar.
Todos os passageiros saem do elevador apenas no andar t
erreo.
Andr
e Peric Tavares
Aprendizado de M
aquina
Otimizac
ML
Implementacao
Cada estado e computado como um vetor de 7 elementos
x = [c1 , c2 , c3 , c4 , p, v , o]T
Andr
e Peric Tavares
Aprendizado de M
aquina
Otimizac
ML
Implementacao
x = [c1 , c2 , c3 , c4 , p, v , o]T
Em que
ci representa o n
umero de pessoas que aguardam no andar i.
Andr
e Peric Tavares
Aprendizado de M
aquina
Otimizac
ML
Implementacao
x = [c1 , c2 , c3 , c4 , p, v , o]T
Em que
ci representa o n
p
e a posicao do elevador, pertencente a {0, 1, 2, 3, 4}.
Andr
e Peric Tavares
Aprendizado de M
aquina
Otimizac
ML
Implementacao
x = [c1 , c2 , c3 , c4 , p, v , o]T
Em que
ci representa o n
p
v
e a velocidade do elevador, pertencente a {3, 0, 3}.
Andr
e Peric Tavares
Aprendizado de M
aquina
Otimizac
ML
Implementacao
x = [c1 , c2 , c3 , c4 , p, v , o]T
Em que
ci representa o n
p
v
o
e o n
umero de pessoas que ocupam o elevador, tomando valores
entre {0, 1, 2, 3, 4}.
Andr
e Peric Tavares
Aprendizado de M
aquina
Otimizac
ML
Implementacao
x = [c1 , c2 , c3 , c4 , p, v , o]T
Em que
ci representa o n
p
v
o
e o n
umero de pessoas que ocupam o elevador, tomando valores
entre {0, 1, 2, 3, 4}.

Assim, existem no total
24 5 3 5 = 1200
estados diferentes.
Andr
e Peric Tavares
Aprendizado de M
aquina
Otimizac
ML
Recompensa
F
ormula:
p(x) =
4
X
ci o
i=1
Andr
e Peric Tavares
Aprendizado de M
aquina
Otimizac
ML
Recompensa
F
ormula:
p(x) =
4
X
ci o
i=1
Interpretacao: Negativo do n
umero de passageiros aguardantes e
ocupantes.
Andr
e Peric Tavares
Aprendizado de M
aquina
Otimizac
ML
Execucao
Passo 1: Calcular e construir o conjunto de ac

oes
otimas.
Andr
e Peric Tavares
Aprendizado de M
aquina
Otimizac
ML
Execucao
Passo 1: Calcular e construir o conjunto de ac

oes
otimas.
function Algoritmo q-value(Psa , p, )
Inicialize V = 0 para todo x X , u U (arbitrario)
k=0
repeat
for cada
Px X , u U do
Qk+1 (x, u) = x 0 X Psa (x, u, x 0 )[p(x, u, u 0 ) + maxu0 U Qk (x 0 , u 0 )]
end for
k k +1
until maxx,u |Qk (x, u) Qk1 (x, u)| <
return (x) = arg maxuU Qk (x, u)x X
end function
Andr
e Peric Tavares
Aprendizado de M
aquina
Otimizac
ML
Resultados
Resultados obtidos:
Andr
e Peric Tavares
Aprendizado de M
aquina
Otimizac
ML
Resultados
Resultados obtidos:
Figura: :(
Andr
e Peric Tavares
Aprendizado de M
aquina
Otimizac
ML
Artigo original
Resultado no artigo Reinforcement Learning for Elevator Control, por

Yuan, X., Busoniu, L., Babuska, R:
Andr
e Peric Tavares
Aprendizado de M
aquina
Otimizac
ML
Artigo original

Heurstica: Selecione aleatoriamente um passageiro aguardante, va ate o
seu andar e o leve diretamente ao terreo. Repita.
Andr
e Peric Tavares
Aprendizado de M
aquina
Otimizac
ML
Artigo original

Tempo medio (media da soma dos tempos de espera de todos a cada
segundo): aprox. 70s.
Andr
e Peric Tavares
Aprendizado de M
aquina
Otimizac
ML
Artigo original

Tempo medio (media da soma dos tempos de espera de todos a cada
segundo): aprox. 70s.
Heurstica: RL e algoritmo q-learning. Tempo medio: aprox. 5s.
Andr
e Peric Tavares
Aprendizado de M
aquina
Otimizac
ML
Duvidas
Andr
e Peric Tavares
Aprendizado de M
aquina

Elevadores and Reinforcement Learning

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Elevadores and Reinforcement Learning

Transféré par

Droits d'auteur :

Formats disponibles

Otimizac

ao do Funcionamento de Elevadores Atrav

Otimizacao do Funcionamento de Elevadores

A natureza do aprendizado esta intimamente ligada com a interacao com

A natureza do aprendizado esta intimamente ligada com a interacao com

A natureza do aprendizado esta intimamente ligada com a interacao com

Abordagem computacional ao aprendizado por interacao.

Abordagem computacional ao aprendizado por interacao.

Um Markov decision processes e uma tupla (S, A, {Psa }, , R) em que:

Um Markov decision processes e uma tupla (S, A, {Psa }, , R) em que:

Um Markov decision processes e uma tupla (S, A, {Psa }, , R) em que:

Um Markov decision processes e uma tupla (S, A, {Psa }, , R) em que:

Um Markov decision processes e uma tupla (S, A, {Psa }, , R) em que:

Um Markov decision processes e uma tupla (S, A, {Psa }, , R) em que:

Recompensa total torna-se

Recompensa total torna-se

Valor e funcao recompensa

Uma poltica mapeia cada elemento do onjunto de estados S a uma

entre {0, 1, 2, 3, 4}.

entre {0, 1, 2, 3, 4}.

Passo 1: Calcular e construir o conjunto de ac

Passo 1: Calcular e construir o conjunto de ac

Resultado no artigo Reinforcement Learning for Elevator Control, por

Resultado no artigo Reinforcement Learning for Elevator Control, por

Resultado no artigo Reinforcement Learning for Elevator Control, por

Resultado no artigo Reinforcement Learning for Elevator Control, por

Vous aimerez peut-être aussi