Vous êtes sur la page 1sur 44

Otimizac

ao do Funcionamento de Elevadores Atrav


es de Reinforcement Learning

ML

Otimizacao do Funcionamento de Elevadores


Atraves de Reinforcement Learning
Andre Peric Tavares
E-mail: andre.peric@ufabc.edu.br

25 de maio de 2014

Andr
e Peric Tavares

Aprendizado de M
aquina

Otimizac
ao do Funcionamento de Elevadores Atrav
es de Reinforcement Learning

ML

Introducao

A natureza do aprendizado esta intimamente ligada com a interacao com


o ambiente.

Andr
e Peric Tavares

Aprendizado de M
aquina

Otimizac
ao do Funcionamento de Elevadores Atrav
es de Reinforcement Learning

ML

Introducao

A natureza do aprendizado esta intimamente ligada com a interacao com


o ambiente.
Exemplos:
(a) Crianca evita repetir ac
oes que resultaram em dor.

Andr
e Peric Tavares

Aprendizado de M
aquina

Otimizac
ao do Funcionamento de Elevadores Atrav
es de Reinforcement Learning

ML

Introducao

A natureza do aprendizado esta intimamente ligada com a interacao com


o ambiente.
Exemplos:
(a) Crianca evita repetir ac
oes que resultaram em dor. o do jogo, decide
jogada e aprende com os resultados futuros.
(b) Jogador de xadrez verifica estado atual do jogo, toma acao e aprende
com suas consequencias.

Andr
e Peric Tavares

Aprendizado de M
aquina

Otimizac
ao do Funcionamento de Elevadores Atrav
es de Reinforcement Learning

ML

Behaviorismo

Behaviorismo

Enfase
na interacao com o ambiente e conceito de reforco.

Andr
e Peric Tavares

Aprendizado de M
aquina

Otimizac
ao do Funcionamento de Elevadores Atrav
es de Reinforcement Learning

ML

Behaviorismo

Behaviorismo

Enfase
na interacao com o ambiente e conceito de reforco.
Reforco e uma consequencia que ira estimular o comportamento futuro.

Andr
e Peric Tavares

Aprendizado de M
aquina

Otimizac
ao do Funcionamento de Elevadores Atrav
es de Reinforcement Learning

ML

Behaviorismo

Behaviorismo

Enfase
na interacao com o ambiente e conceito de reforco.
Reforco e uma consequencia que ira estimular o comportamento futuro.
https://www.youtube.com/watch?v=tV7Zp2B_mt8

Andr
e Peric Tavares

Aprendizado de M
aquina

Otimizac
ao do Funcionamento de Elevadores Atrav
es de Reinforcement Learning

ML

Motivacao

Abordagem computacional ao aprendizado por interacao.

Andr
e Peric Tavares

Aprendizado de M
aquina

Otimizac
ao do Funcionamento de Elevadores Atrav
es de Reinforcement Learning

ML

Motivacao

Abordagem computacional ao aprendizado por interacao.


Objetivo: Modelar um sistema de controle de elevadores atraves do RL.

Andr
e Peric Tavares

Aprendizado de M
aquina

Otimizac
ao do Funcionamento de Elevadores Atrav
es de Reinforcement Learning

ML

MDP

Um Markov decision processes e uma tupla (S, A, {Psa }, , R) em que:

Andr
e Peric Tavares

Aprendizado de M
aquina

Otimizac
ao do Funcionamento de Elevadores Atrav
es de Reinforcement Learning

ML

MDP

Um Markov decision processes e uma tupla (S, A, {Psa }, , R) em que:


(a) S e o conjunto de estados. Cada elemento de S representa uma
caracterstica do estado.

Andr
e Peric Tavares

Aprendizado de M
aquina

Otimizac
ao do Funcionamento de Elevadores Atrav
es de Reinforcement Learning

ML

MDP

Um Markov decision processes e uma tupla (S, A, {Psa }, , R) em que:


(a) S e o conjunto de estados. Cada elemento de S representa uma
caracterstica do estado.
(b) A e o conjunto de ac
oes.

Andr
e Peric Tavares

Aprendizado de M
aquina

Otimizac
ao do Funcionamento de Elevadores Atrav
es de Reinforcement Learning

ML

MDP

Um Markov decision processes e uma tupla (S, A, {Psa }, , R) em que:


(a) S e o conjunto de estados. Cada elemento de S representa uma
caracterstica do estado.
(b) A e o conjunto de ac
oes.
(c) {Psa } sao as probabilidades de estado de transic
ao, isto e, a
distribuicao de probabilidades para cada mudanca de estado atraves
de uma acao.

Andr
e Peric Tavares

Aprendizado de M
aquina

Otimizac
ao do Funcionamento de Elevadores Atrav
es de Reinforcement Learning

ML

MDP

Um Markov decision processes e uma tupla (S, A, {Psa }, , R) em que:


(a) S e o conjunto de estados. Cada elemento de S representa uma
caracterstica do estado.
(b) A e o conjunto de ac
oes.
(c) {Psa } sao as probabilidades de estado de transic
ao, isto e, a
distribuicao de probabilidades para cada mudanca de estado atraves
de uma acao.
(d) e o fator de desconto e pertence a [0, 1).

Andr
e Peric Tavares

Aprendizado de M
aquina

Otimizac
ao do Funcionamento de Elevadores Atrav
es de Reinforcement Learning

ML

MDP

Um Markov decision processes e uma tupla (S, A, {Psa }, , R) em que:


(a) S e o conjunto de estados. Cada elemento de S representa uma
caracterstica do estado.
(b) A e o conjunto de ac
oes.
(c) {Psa } sao as probabilidades de estado de transic
ao, isto e, a
distribuicao de probabilidades para cada mudanca de estado atraves
de uma acao.
(d) e o fator de desconto e pertence a [0, 1).
(e) R e a funcao recompensa, que leva os elementos de S A a R, cujo
domnio tambem pode ser descrito como apenas S.

Andr
e Peric Tavares

Aprendizado de M
aquina

Otimizac
ao do Funcionamento de Elevadores Atrav
es de Reinforcement Learning

ML

MPD

Mecanica do MPD:
s0

Andr
e Peric Tavares

Aprendizado de M
aquina

Otimizac
ao do Funcionamento de Elevadores Atrav
es de Reinforcement Learning

ML

MPD

Mecanica do MPD:
s0 a0

Andr
e Peric Tavares

Aprendizado de M
aquina

Otimizac
ao do Funcionamento de Elevadores Atrav
es de Reinforcement Learning

ML

MPD

Mecanica do MPD:
s0 a0 s1

Andr
e Peric Tavares

Aprendizado de M
aquina

Otimizac
ao do Funcionamento de Elevadores Atrav
es de Reinforcement Learning

ML

MPD

Mecanica do MPD:
s0 a0 s1 a1

Andr
e Peric Tavares

Aprendizado de M
aquina

Otimizac
ao do Funcionamento de Elevadores Atrav
es de Reinforcement Learning

ML

MPD

Mecanica do MPD:
s0 a0 s1 a1 s2

Andr
e Peric Tavares

Aprendizado de M
aquina

Otimizac
ao do Funcionamento de Elevadores Atrav
es de Reinforcement Learning

ML

MPD

Mecanica do MPD:
s0 a0 s1 a1 s2 . . .

Andr
e Peric Tavares

Aprendizado de M
aquina

Otimizac
ao do Funcionamento de Elevadores Atrav
es de Reinforcement Learning

ML

Recompensa

Recompensa total torna-se


R(s0 ) + R(s1 ) + 2 R(s2 ) + ...

Andr
e Peric Tavares

Aprendizado de M
aquina

Otimizac
ao do Funcionamento de Elevadores Atrav
es de Reinforcement Learning

ML

Recompensa

Recompensa total torna-se


R(s0 ) + R(s1 ) + 2 R(s2 ) + ...
Explicacao: O presente e mais importante do que o futuro.

Andr
e Peric Tavares

Aprendizado de M
aquina

Otimizac
ao do Funcionamento de Elevadores Atrav
es de Reinforcement Learning

ML

Valor e funcao recompensa

Uma poltica mapeia cada elemento do onjunto de estados S a uma


acao a A
Valor do estado s sob a poltica , denotado por V , que e a esperanca
da soma das recompensas:
V (s) = E [R(s0 ) + R(s1 ) + 2 R(s2 ) + ...]
possvel provar que a funcao acima satisfaz as Equacoes de Bellman:
E
X
V (s) = R(s) +
P(s 0 |s, (s))V (s 0 ).
s0

Andr
e Peric Tavares

Aprendizado de M
aquina

Otimizac
ao do Funcionamento de Elevadores Atrav
es de Reinforcement Learning

ML

Condicoes

Restric
oes (descer estando no terreo, subir estando no u
ltimo, etc.)

Andr
e Peric Tavares

Aprendizado de M
aquina

Otimizac
ao do Funcionamento de Elevadores Atrav
es de Reinforcement Learning

ML

Condicoes

Restric
oes (descer estando no terreo, subir estando no u
ltimo, etc.)
No m
aximo um passageiro aguarda por andar.

Andr
e Peric Tavares

Aprendizado de M
aquina

Otimizac
ao do Funcionamento de Elevadores Atrav
es de Reinforcement Learning

ML

Condicoes

Restric
oes (descer estando no terreo, subir estando no u
ltimo, etc.)
No m
aximo um passageiro aguarda por andar.
Todos os passageiros saem do elevador apenas no andar t
erreo.

Andr
e Peric Tavares

Aprendizado de M
aquina

Otimizac
ao do Funcionamento de Elevadores Atrav
es de Reinforcement Learning

ML

Implementacao
Cada estado e computado como um vetor de 7 elementos
x = [c1 , c2 , c3 , c4 , p, v , o]T

Andr
e Peric Tavares

Aprendizado de M
aquina

Otimizac
ao do Funcionamento de Elevadores Atrav
es de Reinforcement Learning

ML

Implementacao
Cada estado e computado como um vetor de 7 elementos
x = [c1 , c2 , c3 , c4 , p, v , o]T
Em que
ci representa o n
umero de pessoas que aguardam no andar i.

Andr
e Peric Tavares

Aprendizado de M
aquina

Otimizac
ao do Funcionamento de Elevadores Atrav
es de Reinforcement Learning

ML

Implementacao
Cada estado e computado como um vetor de 7 elementos
x = [c1 , c2 , c3 , c4 , p, v , o]T
Em que
ci representa o n
umero de pessoas que aguardam no andar i.
p
e a posicao do elevador, pertencente a {0, 1, 2, 3, 4}.

Andr
e Peric Tavares

Aprendizado de M
aquina

Otimizac
ao do Funcionamento de Elevadores Atrav
es de Reinforcement Learning

ML

Implementacao
Cada estado e computado como um vetor de 7 elementos
x = [c1 , c2 , c3 , c4 , p, v , o]T
Em que
ci representa o n
umero de pessoas que aguardam no andar i.
p
e a posicao do elevador, pertencente a {0, 1, 2, 3, 4}.
v
e a velocidade do elevador, pertencente a {3, 0, 3}.

Andr
e Peric Tavares

Aprendizado de M
aquina

Otimizac
ao do Funcionamento de Elevadores Atrav
es de Reinforcement Learning

ML

Implementacao
Cada estado e computado como um vetor de 7 elementos
x = [c1 , c2 , c3 , c4 , p, v , o]T
Em que
ci representa o n
umero de pessoas que aguardam no andar i.
p
e a posicao do elevador, pertencente a {0, 1, 2, 3, 4}.
v
e a velocidade do elevador, pertencente a {3, 0, 3}.
o
e o n
umero de pessoas que ocupam o elevador, tomando valores

entre {0, 1, 2, 3, 4}.

Andr
e Peric Tavares

Aprendizado de M
aquina

Otimizac
ao do Funcionamento de Elevadores Atrav
es de Reinforcement Learning

ML

Implementacao
Cada estado e computado como um vetor de 7 elementos
x = [c1 , c2 , c3 , c4 , p, v , o]T
Em que
ci representa o n
umero de pessoas que aguardam no andar i.
p
e a posicao do elevador, pertencente a {0, 1, 2, 3, 4}.
v
e a velocidade do elevador, pertencente a {3, 0, 3}.
o
e o n
umero de pessoas que ocupam o elevador, tomando valores

entre {0, 1, 2, 3, 4}.


Assim, existem no total
24 5 3 5 = 1200
estados diferentes.
Andr
e Peric Tavares

Aprendizado de M
aquina

Otimizac
ao do Funcionamento de Elevadores Atrav
es de Reinforcement Learning

ML

Recompensa

F
ormula:
p(x) =

4
X

ci o

i=1

Andr
e Peric Tavares

Aprendizado de M
aquina

Otimizac
ao do Funcionamento de Elevadores Atrav
es de Reinforcement Learning

ML

Recompensa

F
ormula:
p(x) =

4
X

ci o

i=1

Interpretacao: Negativo do n
umero de passageiros aguardantes e
ocupantes.

Andr
e Peric Tavares

Aprendizado de M
aquina

Otimizac
ao do Funcionamento de Elevadores Atrav
es de Reinforcement Learning

ML

Execucao

Passo 1: Calcular e construir o conjunto de ac


oes
otimas.

Andr
e Peric Tavares

Aprendizado de M
aquina

Otimizac
ao do Funcionamento de Elevadores Atrav
es de Reinforcement Learning

ML

Execucao

Passo 1: Calcular e construir o conjunto de ac


oes
otimas.
function Algoritmo q-value(Psa , p, )
Inicialize V = 0 para todo x X , u U (arbitrario)
k=0
repeat
for cada
Px X , u U do
Qk+1 (x, u) = x 0 X Psa (x, u, x 0 )[p(x, u, u 0 ) + maxu0 U Qk (x 0 , u 0 )]
end for
k k +1
until maxx,u |Qk (x, u) Qk1 (x, u)| <
return (x) = arg maxuU Qk (x, u)x X
end function

Andr
e Peric Tavares

Aprendizado de M
aquina

Otimizac
ao do Funcionamento de Elevadores Atrav
es de Reinforcement Learning

ML

Resultados

Resultados obtidos:

Andr
e Peric Tavares

Aprendizado de M
aquina

Otimizac
ao do Funcionamento de Elevadores Atrav
es de Reinforcement Learning

ML

Resultados

Resultados obtidos:

Figura: :(

Andr
e Peric Tavares

Aprendizado de M
aquina

Otimizac
ao do Funcionamento de Elevadores Atrav
es de Reinforcement Learning

ML

Artigo original

Resultado no artigo Reinforcement Learning for Elevator Control, por


Yuan, X., Busoniu, L., Babuska, R:

Andr
e Peric Tavares

Aprendizado de M
aquina

Otimizac
ao do Funcionamento de Elevadores Atrav
es de Reinforcement Learning

ML

Artigo original

Resultado no artigo Reinforcement Learning for Elevator Control, por


Yuan, X., Busoniu, L., Babuska, R:
Heurstica: Selecione aleatoriamente um passageiro aguardante, va ate o
seu andar e o leve diretamente ao terreo. Repita.

Andr
e Peric Tavares

Aprendizado de M
aquina

Otimizac
ao do Funcionamento de Elevadores Atrav
es de Reinforcement Learning

ML

Artigo original

Resultado no artigo Reinforcement Learning for Elevator Control, por


Yuan, X., Busoniu, L., Babuska, R:
Heurstica: Selecione aleatoriamente um passageiro aguardante, va ate o
seu andar e o leve diretamente ao terreo. Repita.
Tempo medio (media da soma dos tempos de espera de todos a cada
segundo): aprox. 70s.

Andr
e Peric Tavares

Aprendizado de M
aquina

Otimizac
ao do Funcionamento de Elevadores Atrav
es de Reinforcement Learning

ML

Artigo original

Resultado no artigo Reinforcement Learning for Elevator Control, por


Yuan, X., Busoniu, L., Babuska, R:
Heurstica: Selecione aleatoriamente um passageiro aguardante, va ate o
seu andar e o leve diretamente ao terreo. Repita.
Tempo medio (media da soma dos tempos de espera de todos a cada
segundo): aprox. 70s.
Heurstica: RL e algoritmo q-learning. Tempo medio: aprox. 5s.

Andr
e Peric Tavares

Aprendizado de M
aquina

Otimizac
ao do Funcionamento de Elevadores Atrav
es de Reinforcement Learning

ML

Duvidas

Andr
e Peric Tavares

Aprendizado de M
aquina

Vous aimerez peut-être aussi