Vous êtes sur la page 1sur 173

CONTROLO DISTRIBUDO DE

AGENTES NO-COOPERANTES
EXPLORADORES E TRAIDORES
Pedro Mariano
DIFCUL TR0624
Dezembro de 2006
Departamento de Informtica
Faculdade de Cincias da Universidade de Lisboa
Campo Grande, 1749016 Lisboa
Portugal
Technical reports are available at http://www.di.fc.ul.pt/tech-reports. The les
are stored in PDF, with the report number as lename. Alternatively, reports are available by
post from the above address.
UNIVERSIDADE DE LISBOA
FACULDADE DE CINCIAS
DEPARTAMENTO DE INFORMTICA
CONTROLO DISTRIBUDO DE AGENTES
NO-COOPERANTES EXPLORADORES E
TRAIDORES
Pedro Lopes da Silva Mariano
DOUTORAMENTO EM INFORMTICA
Engenharia Informtica
2006
CONTROLO DISTRIBUDO DE AGENTES
NO-COOPERANTES EXPLORADORES E
TRAIDORES
Pedro Lopes da Silva Mariano
Dissertao submetida para obteno do grau de
DOUTOR EM INFORMTICA
pela
Faculdade de Cincias da Universidade de Lisboa
Departamento de Informtica
Orientador:
Lus Miguel Parreira e Correia
2006
Resumo
Pretende-se dotar agentes cooperantes da capacidade de resistirema agentes no-coope-
rantes. Assumimos que os agentes interagem no contexto de um jogo. O modelo desen-
volvido, intitulado Jogo de Recusa, consiste num meta-jogo atravs do qual os agentes
podem recusar-se a interagir com determinados agentes. Por ser um meta-jogo aplic-
vel a qualquer cenrio, desde que modelado atravs de um jogo. O algoritmo a utilizar
pelos agentes cooperantes distribudo no sentido em que no h armazenamento cen-
tral de quem so os agentes no-cooperantes. apresentada uma anlise terica das
condies em que o modelo permite obter o objectivo proposto, a par de uma avaliao
experimental na qual so utilizados jogos, tais como o Dilema do Prisioneiro Iterado
e o Dilema do Lenhador, comuns em trabalhos sobre cooperao. Adicionalmente, foi
desenvolvido um novo jogo, de seu nome Give-Take, que alm de permitir o estudo de
comportamentos cooperantes, tem como caracterstica original a existncia de mltiplas
estratgias cooperantes. Quando agentes com estratgias cooperantes diferentes se en-
contram para jogar, podem utilizar um acordo para seleccionar uma nica estratgia.
Este jogo pode ser utilizado no estudo da negociao de acordos.
PALAVRAS-CHAVE: Cooperao, Sistemas Multi-Agentes.
Abstract
The goal of this research is to obtain agents capable of resisting to non-cooperative
agents. We assume that agents interact within the context of a game. The model that we
have developed, entitled Refusal Game, is a meta-game which an agent can use in order
to prevent interaction with other agent. This characteristic allows this meta-game to be
applied to any scenario that can be described as a game. The algorithm that agents run is
distributed as no central repository is needed to store information about non-cooperative
agents. We present a theoretical analysis of this meta-game and show the conditions that
achieve the desired goal. The meta-game is also validated experimentally using games
such as Iterated Prisoners Dilemma and Lumberjacks Dilemma, which are commonly
used in cooperation research. Additionally, we have developed a new game, entitled
Give-Take, also used in the experimental validation. One of the original characteristics
of this game is the existence of multiple strategies to cooperate. When a group of agents
with different cooperative strategies meet to play this game, there is a conict as to
which strategy they should use, therefore an agreement is a solution to solve the conict.
The game permits the study of agreement negotiation.
KEY WORDS: Cooperation, Multi-Agent Systems.
Agradecimentos
Os primeiros agradecimentos vo para o professor Lus Correia pela orientao que
prestou ao longo destes anos, pelo exemplo de como se deve encarar um trabalho de
investigao e de como se deve ter um esprito crtico e atento. As sesses de discusso
de artigos cientcos do GruVA foram um contributo para a aprendizagem do traba-
lho cientco. Quero dirigir um agradecimento especial ao Antnio Abreu, membro do
GruVA e como eu aluno de doutoramento do Lus Correia, pelos comentrios e apoio
prestado. Aos membros do GruVA Nuno Henriques, Ral Moizo, Pedro Santana, An-
tnio Manso, Lara Santos, Antnio Gonalves, Alfredo Pereira e Tiago Santos agradeo
o seu apoio. Quero agradecer o apoio nanceiro prestado pela Fundao para a Cincia
e Tecnologia na forma da Bolsa de Doutoramento. Quero agradecer o apoio material
prestado quer pelo Departamento de Informtica da Faculdade de Cincias e Tecnologia
da Universidade Nova de Lisboa quer pelo Departamento de Informtica da Faculdade
de Cincias da Universidade de Lisboa. Finalmente quero agradecer minha famlia e
Eullia pelo apoio e incentivo.
Lisboa, Maio de 2006
Pedro Lopes da Silva Mariano
Eullia e minha famlia.
Contedo
Contedo i
Acrnimos v
Nomenclatura ix
Lista de Figuras xi
Lista de Tabelas xiii
1 Introduo 1
1.1 Motivao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 Interaco e Sociedade . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.2.1 Comportamento Cooperante . . . . . . . . . . . . . . . . . . . 2
1.2.2 Comportamento No-Cooperante . . . . . . . . . . . . . . . . 3
1.3 Conceitos Gerais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.3.1 Interaco e as Estratgias . . . . . . . . . . . . . . . . . . . . 4
1.3.2 Interaco e Agentes . . . . . . . . . . . . . . . . . . . . . . . 4
1.3.3 Componente Social . . . . . . . . . . . . . . . . . . . . . . . . 5
1.4 Objectivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.5 Resumo da Tese Defendida . . . . . . . . . . . . . . . . . . . . . . . . 7
1.5.1 Resumo e Notao . . . . . . . . . . . . . . . . . . . . . . . . 8
1.6 Estrutura . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2 Matria Relacionada 11
2.1 Teoria de Jogos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.1.1 Nomenclatura . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.1.2 Cooperao e Coordenao . . . . . . . . . . . . . . . . . . . . 14
2.1.3 Teoria de Jogos Evolucionria . . . . . . . . . . . . . . . . . . 17
2.1.4 Discusso . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.2 Inteligncia Articial . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
i
2.2.1 Nomenclatura . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.2.2 Arquitectura do Agente . . . . . . . . . . . . . . . . . . . . . . 21
2.2.3 Comunicao . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
2.2.4 Evoluo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.2.5 Discusso . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
2.3 Jogos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.3.1 Dilema do Prisioneiro Iterado . . . . . . . . . . . . . . . . . . 27
2.3.2 Ditador e Ultimato . . . . . . . . . . . . . . . . . . . . . . . . 28
2.3.3 Investimento . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
2.3.4 Dilema do Lenhador . . . . . . . . . . . . . . . . . . . . . . . 29
2.3.5 Generais Bizantinos . . . . . . . . . . . . . . . . . . . . . . . 30
2.3.6 Generais Chineses . . . . . . . . . . . . . . . . . . . . . . . . 30
2.3.7 Outros Jogos . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
3 Jogo Give Take 33
3.1 Descrio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
3.1.1 Parmetros . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
3.1.2 Exemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
3.1.3 Dilema . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
3.2 Anlise . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
3.2.1 Espao de Estratgias . . . . . . . . . . . . . . . . . . . . . . . 38
3.2.2 Dinmica do Jogo . . . . . . . . . . . . . . . . . . . . . . . . 42
3.3 Comentrios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
3.3.1 Comparao com outros Jogos . . . . . . . . . . . . . . . . . . 50
4 Jogo de Recusa 51
4.1 Caractersticas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
4.1.1 Motivao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
4.1.2 Descrio Sumria . . . . . . . . . . . . . . . . . . . . . . . . 51
4.1.3 Agentes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
4.1.4 Utilidade Recusa . . . . . . . . . . . . . . . . . . . . . . . . . 53
4.1.5 Comentrios . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
4.2 Anlise da Dinmica Populacional . . . . . . . . . . . . . . . . . . . . 53
4.2.1 Utilidade dos Agentes . . . . . . . . . . . . . . . . . . . . . . 55
4.2.2 Utilidade do Grupo . . . . . . . . . . . . . . . . . . . . . . . . 56
4.2.3 Pontos Fixos . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
4.2.4 Propores
1
e
2
. . . . . . . . . . . . . . . . . . . . . . . . 61
4.2.5 Valor de u
RC
. . . . . . . . . . . . . . . . . . . . . . . . . . . 62
4.3 Anlise dos Jogadores do Jogo de Recusa . . . . . . . . . . . . . . . . 64
4.3.1 Quando se deve recusar . . . . . . . . . . . . . . . . . . . . . . 64
4.3.2 Identicao e Estratgia . . . . . . . . . . . . . . . . . . . . . 66
ii
4.4 Comparao com outros trabalhos . . . . . . . . . . . . . . . . . . . . 69
5 Anlise Experimental 73
5.1 Congurao Geral das Experincias . . . . . . . . . . . . . . . . . . . 73
5.1.1 Parmetros e Condies . . . . . . . . . . . . . . . . . . . . . 73
5.1.2 Algoritmo Evolucionrio . . . . . . . . . . . . . . . . . . . . . 76
5.1.3 Comentrios . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
5.2 Simulaes Give-Take . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
5.2.1 Congurao das Experincias . . . . . . . . . . . . . . . . . . 80
5.2.2 Representao dos Agentes . . . . . . . . . . . . . . . . . . . . 80
5.2.3 Anlise dos Resultados . . . . . . . . . . . . . . . . . . . . . . 86
5.3 Simulaes Jogo de Recusa . . . . . . . . . . . . . . . . . . . . . . . 91
5.3.1 Representao dos Agentes . . . . . . . . . . . . . . . . . . . . 91
5.3.2 O Jogo J
R
. . . . . . . . . . . . . . . . . . . . . . . . . . . . 96
5.3.3 Anlise dos Resultados . . . . . . . . . . . . . . . . . . . . . . 103
5.3.4 Resumo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115
6 Consideraes Finais 117
6.1 Comentrios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117
6.1.1 Jogo Give-Take . . . . . . . . . . . . . . . . . . . . . . . . . . 117
6.1.2 Jogo de Recusa . . . . . . . . . . . . . . . . . . . . . . . . . 118
6.1.3 Jogos e Algoritmo Evolucionrio . . . . . . . . . . . . . . . . 120
6.1.4 Metas Alcanadas . . . . . . . . . . . . . . . . . . . . . . . . 121
6.1.5 Trabalhos Publicados e Aplicaes Desenvolvidas . . . . . . . 121
6.2 Trabalho Futuro . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122
6.2.1 Give-Take . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123
6.2.2 Comunicao . . . . . . . . . . . . . . . . . . . . . . . . . . . 123
6.2.3 Algoritmos Evolucionrios e Jogos . . . . . . . . . . . . . . . 123
A Give-Take 125
A.1 Notas sobre as expresses . . . . . . . . . . . . . . . . . . . . . . . . . 125
A.2 Ganho por iterao . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126
B Recusa 127
B.1 Ponto xo x
0
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127
B.2 Condies para as propores
1
e
2
. . . . . . . . . . . . . . . . . . . 128
C Aplicaes Desenvolvidas 131
C.1 Jogo Give-Take . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131
C.2 Jogos Evolucionrios . . . . . . . . . . . . . . . . . . . . . . . . . . . 131
C.3 Gesto de Simulaes . . . . . . . . . . . . . . . . . . . . . . . . . . . 132
iii
Bibliograa 135
iv
Acrnimos
AE Algoritmo Evolucionrio
AG Algoritmo Gentico
EE Estratgia Evolutiva
EEE Estratgia Evolucionariamente Estvel
IA Inteligncia Articial
IAD Inteligncia Articial Distribuda
IPD Dilema do Prisioneiro Iterado
KQML Knowledge Query and Manipulation Language
LCA Linguagens de Comunicao entre Agentes
PG Programao Gentica
SD Sistemas Distribudos
SMA Sistemas Multi-Agentes
TJ Teoria de Jogos
TJC Teoria de Jogos Cooperativa
TJE Teoria de Jogos Evolucionria
TJnC Teoria de Jogos No-Cooperativa
VA Vida Articial
v
Nomenclatura
Representa um agente
A Representa um agente ou grupo de agentes no-cooperantes
B Representa um agente ou grupo de agentes cooperantes
N
J
Nmero de jogos em que um agente participa directamente
P Conjunto que representa uma populao de agentes
P

Conjunto formado pela unio de V

e
V

Conjunto dos vizinhos do agente


bag Estrutura de populao onde todos os agentes so vizinhos uns dos outros
lattice Estrutura de populao onde os agentes esto dispostos numa grelha toroidal
Modelo de Acordo
s
A
Estratgia utilizada quando h acordo
p
A
Probabilidade de propor um acordo
p
Q
Probabilidade de quebrar um acordo
s
N
Estratgia utilizada quando no h acordo
s
Q
Estratgia utilizada quando quebra o acordo
Give-Take
give Representa a aco dar o recurso ao parceiro
none
r
Representa a aco no fazer nada (quando se tem o recurso)
take Representa a aco tirar o recurso ao parceiro
vii
none
r
Representa a aco no fazer nada (quando no se tem o recurso
p
r
Posse do recurso vale p
r
por iterao
b
g
Valor recebido por efectuar a aco give
c
pt
Valor pago pelo actuante da aco take
c
st
Valor pago pelo sujeito da aco take
(s
1
, s
2
) Funo que representa a relao entre duas estratgias
K Contra-domnio da funo , o seu valor A, B, C, B
/
, D, E, C
/
, E
/
, F
t
r
Nmero de iteraes, aps a recepo do recurso, durante as quais o agente efec-
tua a aco none
r
. Um dos parmetros da estratgia probabilstica utilizada nas
simulaes
p
g
Aps terem passado t
r
iteraes com a posse do recurso, o agente efectuar a ac-
o give com esta probabilidade. Um dos parmetros da estratgia probabilstica
utilizada nas simulaes
t
g
Aps terem passado t
g
iteraes com a posse do recurso, o agente efectua a aco
give. Um dos parmetros da estratgia probabilstica utilizada nas simulaes
t
r
Nmero de iteraes, aps a passagem do recurso, durante as quais o agente
efectua a aco none
r
. Um dos parmetros da estratgia probabilstica utilizada
nas simulaes
p
t
Aps terem passado t
r
iteraes sem a posse do recurso, o agente efectuar a ac-
o take com esta probabilidade. Um dos parmetros da estratgia probabilstica
utilizada nas simulaes
t
t
Aps terem passado t
g
iteraes sem a posse do recurso, o agente efectua a aco
take. Um dos parmetros da estratgia probabilstica utilizada nas simulaes
Jogo de Recusa
(s) Nmero nico da estratgia s
T Conjunto dos tipos possveis de um agente
p Nmero de jogos que um agente nunca recusa jogar com um parceiro de um
determinado tipo
Tipo de um agente
viii
u
RC
Utilidade que os jogadores recebem por algum jogar a aco recusa
v() Valor que um agente atribui aos parceiros de tipo
V Conjunto dos potenciais parceiros de um agente
Teoria de Jogos
S
i
Conjunto das estratgias de um jogador
n Nmero de jogadores de um jogo J
s
i
Estratgia de um jogador
u
i
(s
1
, . . . , s
n
) Utilidade do jogador i
ix
Lista de Figuras
3.1 Grcos da expresso . . . . . . . . . . . . . . . . . . . . . . . . . . 41
3.2 Ganho de uma estratgia quando joga consigo prpria . . . . . . . . . . 42
3.3 Ganho de duas estratgias . . . . . . . . . . . . . . . . . . . . . . . . . 44
3.4 Comparao entre duas estratgias do jogo Give-Take . . . . . . . . . . 46
4.1 Diagrama geral do Jogo de Recusa. . . . . . . . . . . . . . . . . . . . 52
4.2 Grco da expresso u
A
u
B
. . . . . . . . . . . . . . . . . . . . . . . 59
4.3 Pontos xos da equao (4.2) . . . . . . . . . . . . . . . . . . . . . . . 60
4.4 Curvas de x
0
em funo de u
RC
e u
J
BB
. . . . . . . . . . . . . . . . . . . 60
4.5 Grco das condies das propores
1
e
2
. . . . . . . . . . . . . . . 61
4.6 Canal binrio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
5.1 Algoritmo evolucionrio utilizado nas simulaes . . . . . . . . . . . . 77
5.2 Histograma da percentagem da aco give . . . . . . . . . . . . . . . . 87
5.3 Histograma do gentipo do jogo Give-Take . . . . . . . . . . . . . . . . 88
5.4 Exemplos da dinmica evolucionria no jogo Give-Take . . . . . . . . . 89
5.5 Legenda dos grcos referentes s experincias com o Jogo de Recusa 103
5.6 Experincias s com jogo J . . . . . . . . . . . . . . . . . . . . . . . . 105
5.7 Comparao do ganho entre a estratgia cooperante e a estratgia ex-
ploradora . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106
5.8 Experincias envolvendo o Jogo de Recusa com o Give-Take . . . . . . 107
5.9 Experincias envolvendo o Jogo de Recusa com o Dilema do Prisio-
neiro Iterado (IPD) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108
5.10 Experincias envolvendo o Jogo de Recusa com o Dilema do Lenhador 109
5.11 Correlao entre a utilizao do Jogo de Recusa e a presena de estra-
tgias cooperantes na ltima gerao . . . . . . . . . . . . . . . . . . . 112
5.12 Histogramas da correlao entre a utilizao ou no do Jogo de Recusa
e a presena de estratgias cooperantes na ltima gerao. . . . . . . . . 114
xi
Lista de Tabelas
3.1 Ganhos dos jogadores no jogo Give-Take . . . . . . . . . . . . . . . . . 35
3.2 Exemplos de jogadas no jogo Give-Take . . . . . . . . . . . . . . . . . 36
3.3 Classicao da relao entre duas estratgias s
1
e s
2
. . . . . . . . . . 40
4.1 Utilidade dos agentes A e B. . . . . . . . . . . . . . . . . . . . . . . . 56
4.2 Distribuies vrias de pares estratgia-tipo numa populao de agentes. 68
5.1 Parmetros e condies comuns a todas as experincias. . . . . . . . . . 76
5.2 Parmetros e condies utilizados no jogo Give-Take . . . . . . . . . . 81
5.3 Exemplos de estratgias e respectiva sequncia de aces. . . . . . . . . 82
5.4 Parmetros e condies respeitantes estratgia probabilstica . . . . . 83
5.5 Parmetros e condies afectos estratgia baseada em acordos . . . . 85
5.6 Parmetros de cada conjunto de simulaes do Give-Take . . . . . . . . 86
5.7 Probabilidade de um agente encontrar um parceiro . . . . . . . . . . . 93
5.8 Valores das expresses (5.1) e (5.3) . . . . . . . . . . . . . . . . . . . . 94
5.9 Parmetros associados ao modelo de recusa . . . . . . . . . . . . . . . 95
5.10 Parmetros e condies especcos ao Give-Take no Jogo de Recusa. . 97
5.11 Parmetros e condies especcos ao IPD no Jogo de Recusa. . . . . . 100
5.12 Parmetros e condies utilizadas no jogo Dilema do Lenhador. . . . . 101
5.13 Parmetros e condies respeitantes estratgia determinstica utilizada
no jogo Dilema do Lenhador. . . . . . . . . . . . . . . . . . . . . . . . 102
5.14 Percentagem de condies em que o teste da hiptese existncia de cor-
relao positivo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110
5.15 Exemplo de um cheiro utilizado para o clculo da correlao . . . . . 111
5.16 Valores do ponto xo x
0
por jogo. . . . . . . . . . . . . . . . . . . . . 114
A.1 Valor de t
i
r
e de t
i
r
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126
A.2 Valor do parmetro F
1
. . . . . . . . . . . . . . . . . . . . . . . . . . . 126
xiii
Captulo 1
Introduo
1.1 Motivao
O crescente aumento de servios disponibilizados atravs da Internet tem sido acompa-
nhado pela possibilidade dos utilizadores criarem agentes que executem determinadas
tarefas em seu nome (Castelfranchi, 1995; Conte & Dellarocas, 2001; Conte et al.,
1998). No futuro, vamos assistir a cenrios onde existem ecossistemas articiais povo-
ados por agentes com objectivos conituosos. Ao mesmo tempo que isto se torna uma
possibilidade real, aumenta a hiptese destes mesmos agentes terem de interagir com
agentes maliciosos. Tipicamente, estes iro explorar e manipular os primeiros agen-
tes de modo a tirarem vantagens exclusivamente para si. Torna-se imperativo que os
agentes do futuro sejam capazes de lidar com agentes maliciosos.
Sendo assim, neste trabalho pretendemos abordar o problema da interaco entre
agentes e dot-los da capacidade de detectar e penalizar agentes maliciosos.
Existe um trabalho slido na rea de consistncia, sincronizao e robustez no cam-
po dos Sistemas Distribudos (SD) (Tanenbaum, 1989; Tanenbaum, 1995). O trabalho
desenvolvido tem-se focado ao nvel da comunicao entre processos e autenticao das
partes envolvidas com vista a dotar os sistemas da capacidade de tolerncia a falhas ao
nvel do meio de comunicao falvel ou do comportamento dos processos. No que toca
capacidade de raciocnio entre agentes no nesta rea que encontramos os resultados
mais relevantes.
Existem no campo da Inteligncia Articial (IA) (Russell & Norvig, 1995; Nilsson,
1998), sobretudo na Inteligncia Articial Distribuda (IAD) (Stone, 2000; Weiss, 1999;
Rosenschein & Zlotkin, 1994; Jennings et al., 1998), trabalhos relacionados com a
resoluo de conitos. Porm, o conito est muitas vezes situado ao nvel do grupo
de agentes. Especicamente, o objectivo do grupo entra em conito com alguns dos
objectivos individuais pelo que foramdesenvolvidos procedimentos para que os agentes,
incluindo os egostas, possam gerir os seus objectivos individuais sem comprometer os
1
do grupo.
H dois campos que se dedicam ao estudo da interaco entre agentes: Teoria de
Jogos (TJ) e Sistemas Multi-Agentes (SMA). O primeiro concentra-se sobretudo na an-
lise dos equilbrios existentes nas interaces entre os agentes ou jogos. O segundo est
focado na obteno de algoritmos de aprendizagem e raciocnio. Esta diviso no es-
tanque pois h pontos de contacto entre os dois campos. Ambos lidam com a noo de
informao. Quanto mais informao um agente tiver, mais vantagens ter no clculo
de uma estratgia vantajosa.
Podemos dizer que ambos podem explicar a razo por detrs dos comportamentos
dos agentes naturais (Gintis, 2000). Um ponto bastante escalpelizado na TJ (Fuden-
berg & Tirole, 1991) a noo de agente racional (desejoso do maior ganho possvel,
cauteloso face ao risco e altrusta so exemplos possveis). Esta noo est ligada aos
objectivos do agente no jogo que analisado. Diferentes noes podem resultar em
comportamentos diferentes para o mesmo jogo.
Dentro da IA encontramos tambm modelos comportamentais para os agentes. Os
SMA e Vida Articial (VA) so campos que tambm se interessam pela razo de ser dos
comportamentos do agentes.
1.2 Interaco e Sociedade
Referimos na seco anterior dois campos que se dedicam (no exclusivamente) ao es-
tudo da interaco entre agentes. Em geral, dentro de uma populao de agentes pode-
mos encontrar agentes com diversos objectivos: obter ganhos, ajudar ou explorar outros
agentes, cooperar. Os agentes podem efectuar um conjunto variado de transaces ou
negcios. Quando falamos de uma sociedade articial, tipicamente esta composta por
agentes que so representantes de pessoas que os inserem na sociedade para atingir os
objectivos por elas denidos.
Este agentes tm capacidade de medir e avaliar as vrias propostas que lhes so
feitas. So tambm capazes de medir o resultado de uma transaco ou, por outras
palavras, o ganho. Esta assuno comum na TJ. Aqui, a interaco descrita como
umjogo sendo umdos seus elementos os ganhos que podemser obtidos pelos jogadores.
Antes de prosseguirmos, convm denir com mais detalhe alguns dos comporta-
mentos que pretendemos analisar nesta tese.
1.2.1 Comportamento Cooperante
Por comportamento cooperante entendemos as interaces que resultam numa distribui-
o equitativa dos ganhos pelos jogadores. Esta distribuio pode ocorrer por os agentes
terem denido um acordo durante a fase de negociao. A interaco pode conter uma
fase protocolar onde so denidos as linhas de actuao da transaco.
2
A interaco entre agentes pode conter a formao de acordos explcitos entre os
agentes. Um dos objectivos principais dos acordos os agentes coordenarem as suas
aces de modo a obter uma distribuio mais justa dos ganhos.
O estabelecimento de um acordo por parte de um grupo de agentes pode consistir na
escolha de uma estratgia. Cada um dos agentes pode unilateralmente quebrar o acordo
e seguir qualquer outra estratgia. Do mesmo modo, os agentes podero no conseguir
estabelecer um acordo o que implicaria seguir uma estratgia no necessariamente igual
anterior.
H um conjunto de situaes que requerem coordenao por parte dos agentes in-
tervenientes. A coordenao leva os agentes a aumentarem os seus ganhos e tambm a
obter uma distribuio mais justa.
A cooperao tambm necessria em situaes onde os agentes so colocados
perante um dilema de agir unilateralmente olhando exclusivamente para o seus ganhos
ou, pelo contrrio, seguir uma via mais participativa. Nesta ltima soluo o ganho
individual menor mas, tipicamente, h uma distribuio equitativa dos ganhos.
1.2.2 Comportamento No-Cooperante
Um comportamento no-cooperante resulta num ganho baixo para vrios agentes e ga-
nhos elevados para quem praticou o comportamento no-cooperante. No entanto, o
ganho social (soma de todos os ganhos individuais) menor do que se todos os agentes
tivessem cooperado. O objecto de estudo deste trabalho a conteno de comportamen-
tos no cooperantes tais como a traio, explorao e manipulao.
Por comportamentos traidores entendemos a quebra de um acordo ou pacto entre
um conjunto de agentes. O acordo determina que os agentes devem seguir uma estrat-
gia que garanta um ganho social mais elevado do que aquele que os agentes poderiam
obter se agissem em separado. O agente que trai procura uma estratgia que aumente
unilateralmente os seus ganhos em detrimento dos outros parceiros.
A explorao no requer um acordo. O agente explorador segue uma estratgia
unilateral procurando aumentar os seus ganhos desconsiderando os seus parceiros de
interaco. O explorador procura a conana dos seus parceiros para depois os poder
explorar.
O modelo descrito atrs para os acordos permite distinguir agentes exploradores ou
agentes traidores. Os primeiros diferenciam-se dos segundos pela no existncia da fase
de acordos.
Um agente manipulador aquele que controla um outro agente levando-o a agir em
seu benefcio. Um agente que manipula necessita de um modelo das aces de outros
agentes para poder calcular de que modo os pode controlar. Este conceito de mani-
pulao requer que os agentes modelem os seus oponentes, algo que no se encontra
nos objectivos desta tese. Alguns trabalhos sobre manipulao (Vidal, 2003; Vidal &
Durfee, 1998) levantaram alguns limites sobre a vantagem da modelao de oponentes.
3
1.3 Conceitos Gerais
A TJ fornece uma nomenclatura que permite pormenorizar a interaco entre agentes.
Esta encarada como um jogo a n-jogadores tendo cada agente um conjunto de estrat-
gias a seu dispor. Estas estratgias podem chegar ao detalhe de indicar quais as aces
que cada agente pode fazer em determinado instante. Falta mencionar as funes de uti-
lidade que determinam os ganhos dos agentes que so funo das estratgias utilizadas.
A IA complementa com modelos algortmicos que regem o comportamento dos agentes
e que podem manipular diversos tipos de informao com o objectivo de modelar os
parceiros, maximizar os ganhos, entre outros.
1.3.1 Interaco e as Estratgias
Uma estratgia um algoritmo que diz quais as aces que um jogador deve fazer em
todas as situaes possveis. Tomando como exemplo o Xadrez, uma estratgia est
dividida em duas partes conforme joga com as brancas ou com as pretas. No caso de se
jogar com as brancas, a estratgia diz qual a primeira pea branca a jogar, qual a segunda
pea branca a jogar para todas as possveis jogadas do adversrio, etc. Num cenrio de
compra e venda de bens, uma estratgia pode incorporar factores tais como o valor
do produto transaccionado, o valor do comprador, o valor do vendedor e o histrico
de vendas. Facilmente as estratgias crescem em complexidade. Apesar da aparente
complexidade, h um conjunto de jogos que foca aspectos particulares da componente
social tais como coordenao, cooperao, bem comum, etc, e que permite analisar e
compreender comportamentos observados na Natureza. Revemos alguns destes jogos
no captulo 2 principalmente aqueles onde h dilemas ou problemas de coordenao.
Se queremos considerar agentes adaptativos, a descrio anterior das estratgias no
aparenta ter adaptao. Podemos assumir que umagente possui umalgoritmo que indica
qual a estratgia a utilizar dado, por exemplo, um histrico de estratgias. Por outro
lado, podemos considerar uma populao de agentes e respectivas estratgias que so
colocados a interagir uns com os outros numa perspectiva de sobrevivncia do mais
forte: os agentes mais capazes (o que ganha mais interaces ou obtmmais ganhos) so
os que produzem estatisticamente mais descendentes. No queremos fazer um debate
sobre Aprendizagem versus Evoluo e as correspondentes escalas temporais. O nosso
interesse nas estratgias no-cooperantes. Vamos utilizar Algoritmo Evolucionrio
(AE) com o intuito de analisar a dinmica do jogo para vericar quais so as estratgias
capazes de sobreviver durante mais geraes.
1.3.2 Interaco e Agentes
A interaco entre agentes modelada como um jogo J a n-jogadores. O jogo contm n
conjuntos de estratgias e n funes de utilidade. As funes utilidade tm como argu-
4
mento um vector de n estratgias, cada componente i de cada um dos n conjuntos. Cada
agente i utiliza uma estratgia (do seu conjunto). O resultado da sua funo utilidade
determina o seu ganho.
Um conjunto de estratgias diz-se ptima de Pareto se implicar um ganho social
elevado. Vamos designar por u
OP
o ganho mdio associado a cada uma destas estrat-
gias. Dito de outro modo, cada uma das estratgias pertencentes ao perl ptima de
Pareto tem o potencial de resultar num ganho u
OP
para o agente que a utilizar.
Um acordo entre agentes implica a utilizao de um conjunto de estratgias que
faz sentido ser ptima de Pareto. Este acordo pode ser eventualmente quebrado por
qualquer parte. possvel que os agentes no consigam chegar a um acordo.
Neste trabalho, os agentes so constitudos por uma estratgia s. Esta opo pode
ser considerada simples pois a estratgia s pode ser implementada atravs de regras de
produo tais como jogar sempre a aco A. Um agente com esta regra no se adapta.
Ao invs de analisarmos diferentes modelos de agentes ou termos agentes capazes de
aprender a reagir aos seus parceiros (Vidal, 2003), optmos por analisar a dinmica da
populao. Queremos manter os agentes o mais simples possvel para que a capacidade
de reaco aos agentes no-cooperantes surja como efeito da Evoluo, ou seja por
um AE. No queremos preocupar-nos com detalhes de como que a estratgia s est
implementada no agente (regras de produo, autmato de estados nito). No captulo 2
mencionaremos algumas caractersticas principais dos algoritmos que implementam es-
tratgias para jogos.
A opo de no analisar o agente em si, no totalmente verdadeira. O facto de
resumirmos um perl de estratgias ptima de Pareto a um valor, u
OP
vai ser usado
pelos agentes para classicarem os seus parceiros. Esta classicao faz parte do agente
pelo que necessrio um algoritmo para o seu clculo. O tempo de vida do algoritmo
igual ao tempo de vida do agente numa gerao do AE.
1.3.3 Componente Social
O compromisso entre os agentes implica um modelo que restrinja o conjunto de estra-
tgias quelas que permitam oter um ganho u
OP
. Este modelo no deve alterar os equi-
lbrios do jogo J sob pena de o transformar num jogo diferente. O objectivo do modelo
evitar que agentes ditos exploradores ou traidores tirem partido de outros agentes.
Com base nas utilidades que os agentes recebem no jogo, podemos caracterizar
alguns dos comportamentos no-cooperantes enumerados anteriormente.
Traio Quebra de um acordo por parte de um agente com vista a maximizar o seu
ganho. O acordo visa ganhar u
OP
mas um dos agentes usa uma estratgia que lhe
garante u
i
u
OP
, enquanto os outros cam com u
j
u
OP
.
Explorao Um agente usa uma estratgia que aumenta o seu ganho em detrimento
dos participantes. Este agente ganha u
i
u
OP
, enquanto os outros cam com
5
u
j
u
OP
. Este comportamento difere da traio pela ausncia de um acordo
explcito.
Manipulao Um agente inuencia outro agente de modo a que este aja em benefcio
do primeiro mas o segundo penalizado.
Vamos classicar o espao de estratgias, S, do jogo J e dividir em dois grupos
genricos. De um lado, temos estratgias que no so cooperativas, s maximizam
os ganhos de quem as usa. Estas estratgias pertencem ao grupo A. Por outro lado,
temos estratgias que, quando jogam em conjunto, maximizam a mdia do ganho social.
Podemexistir no contexto do jogo J grupos distintos destas estratgias. Estas estratgias
pertencem ao grupo B.
Grupo A As estratgias deste grupo quando jogam com estratgias do grupo B, no
formam um perl ptima de Pareto.
Grupo B Qualquer conjunto de estratgias deste grupo forma um perl ptima de
Pareto.
Em alguns jogos no ser fcil fazer a diviso das estratgias em dois conjuntos. No
jogo que iremos apresentar no captulo 3 existem vrios subgrupos dentro do grupo B.
Um aspecto importante dos agentes a sua capacidade de adaptao a novas situa-
es. Na maioria dos casos, a TJ considera que os agentes so perfeitamente racionais,
ou seja, um agente sabe que o seu parceiro sabe que o agente sabe. . . ad innitum. Assim
sendo, os agentes no precisam de se adaptar, pois j sabem tudo. Contudo h alguns
trabalhos (Brenner & Witt, 2003) que analisam o impacto da aprendizagem por reforo
num contexto populacional.
A IA sobretudo na rea da Aprendizagem Automtica tem um conjunto de algorit-
mos que podem ser usados a diferentes nveis de adaptao: desde agentes capazes de
aprender at aos AE. De particular interesse um algoritmo que permite a um agente
obter um modelo dos seus parceiros (Gmytrasiewicz & Durfee, 1995).
Os vrios comportamentos sociais podem surgir devido dinmica do agente (os
agentes adaptam-se aos seus parceiros atravs de modelos que tentam prever o seu com-
portamento) ou dinmica da populao (as foras evolutivas produzem novas estrat-
gias que pem prova a populao actual de agentes) ou a devido a qualquer combina-
o das duas. Estas dinmicas so muitas vezes colocadas em Ecossistemas Articiais
para o estudo dos mais diversos problemas (Levy, 1992).
1.4 Objectivos
Pretendemos que uma populao de agentes exiba um comportamento cooperante quan-
do interage.
6
Com este trabalho, pretende-se analisar e caracterizar as condies em que, numa
populao de agentes, surgem comportamentos ditos no cooperantes, ou seja, compor-
tamentos de cariz traidor, explorador ou manipulador. O objectivo dotar os agentes da
capacidade de detectar agentes que exibam estes comportamentos maliciosos de modo a
que estes no proliferem numa populao constituda maioritariamente por agentes co-
operantes. Assim queremos que a populao seja composta s por agentes cooperante
ou em ltimo caso que haja uma restrio do nmero de agentes no-cooperantes. Deste
modo, conseguimos obter o maior ganho social.
Uma caracterstica principal da soluo que vamos considerar a ausncia de uma
entidade central onde a informao sobre o comportamento dos agentes armazenada
e pode ser consultada com vista a determinar qual o tipo de agentes existentes na popu-
lao. A disseminao de informao sobre quais so os agentes no cooperantes no
um objectivo primrio deste trabalho. Poder-se-ia considerar a hiptese dos agentes
partilharem essa informao, no entanto, havendo agentes no cooperantes, a abili-
dade da informao posta em causa. Convm realar que o problema de um grupo de
agentes chegar a um consenso, relativamente a uma dada informao, j foi estudado e
apresentado como o problema dos Generais Bizantinos (Lamport et al., 1982).
Devido ao foco especial nos ganhos que os agentes obtm, exclumos a manipula-
o que (segundo o nosso critrio) requer a modelao de agentes. Uma estratgia que
resulta num ganho social baixo considerada no-cooperante. Fazemos distino uni-
camente entre traio e explorao se previamente houve um acordo entre os agentes.
1.5 Resumo da Tese Defendida
O objectivo principal deste trabalho ento restringir o conjunto de estratgias do jogo
J quelas que formam um perl ptima de Pareto, logo, as que garantem um ganho de
u
OP
aos agentes.
Grande parte dos jogos revistos na literatura e apresentados no prximo captulo na
seco 2.1 so caracterizados por serem modicaes ao jogo onde havia problemas
sociais, (ver por exemplo (Bazzan et al., 1998)). O nosso objectivo obter um modelo
que no altere o jogo original, ou seja, que no modique os equilbrios existentes no
jogo.
Encontramos diversos trabalhos que analisaram vrios modelos de agentes. Existem
simulaes computacionais de populaes de agentes onde estes tm as seguintes ca-
ractersticas: diferentes algoritmos de deciso (regras de produo e autmatos nitos);
capacidade de memorizar jogadas passadas; aprendizagem e modelao dos parceiros.
Em experincias envolvendo pessoas, o resultado experimental posta prova com
uma funo de utilidade especca ao jogo utilizado e em muitos destes casos a anlise
terica e experimental estava connada a um ou dois jogos particulares.
De certo modo, ns tambm comemos o trabalho por analisar os jogos mais co-
7
muns utilizados no estudo da cooperao e os seus comportamentos opostos como a
traio e a explorao. Um dos pontos fracos que encontrmos num dos mais conhe-
cidos, o Dilema do Prisioneiro Iterado, o facto de no permitir uma modelao de
acordos sucientemente rica, ou seja, os agentes ou fazem um acordo para jogar a aco
Cooperar ou no chegam a acordo. Em qualquer dos casos, a Teoria de Jogos No-
Cooperativa (TJnC) diz que mais racional o agente jogar a aco trair.
Este acordo parece fraco e levou-nos ao desenvolvimento de um jogo intitulado
Give-Take, que tivesse vrios pers ptima de Pareto, ou seja vrias estratgias co-
operativas. Esta caracterstica requer coordenao por parte dos agentes que se pode
traduzir num acordo. Alm do mais, pode existir numa populao vrios grupos de
agentes com diferentes pers, o que leva a uma dinmica populacional mais rica, obtida
atravs de um AE.
O desenvolvimento de mais um jogo no soluo para comportamentos no-coo-
perantes. Pretendamos um modelo que pudesse ser aplicado componente social de
interaco entre agentes, ao qual fosse possvel a um agente recorrer em caso de traio
ou de explorao.
O modelo deve permitir que a populao de agentes seja capaz de resistir a agentes
do tipo A. Havendo vrios subgrupos B cada qual com a sua estratgia, o estabeleci-
mento de um acordo poder ser til para o entendimento destes subgrupos B, pois este
indica qual a estratgia que devem seguir para todos obterem um ganho mdio de u
OP
.
Propusemos o Jogo de Recusa, que um meta-jogo, com o objectivo de impedir a
interaco entre agentes cooperantes e agentes no-cooperantes. O agente cooperante
atravs de uma penalizao recusa-se a interagir com quem o quer explorar ou trair. A
soluo baseia-se nos ganhos obtidos no jogo J ao qual aplicado o Jogo de Recusa,
logo no depende das particularidades do jogo nem do modelo de agente utilizado. O
jogo funciona atravs de associaes entre tipos de agentes e ganhos.
1.5.1 Resumo e Notao
Vamos assumir que existe uma populao de agentes e que estes interagem no contexto
de um jogo J . Cada agente tem uma estratgia para jogar o jogo. A utilidade, u, que
cada jogador recebe depende das estratgias usadas pelos outros participantes. Estas
assunes seguem as consideraes bsicas da TJ (Fudenberg & Tirole, 1991). Esta
utilidade limitada e contida no intervalo:
[u, u]
De um modo geral, podemos assumir que, na ausncia de agentes traidores ou ex-
ploradores, os agentes usam um conjunto de estratgias que ptima de Pareto. A
utilidade que conseguem ganhar maximiza o ganho conjunto dos agentes. Vamos de-
signar por u
OP
essa utilidade.
8
De notar que, nestas condies, o espao de estratgias no necessariamente igual
para todos os agentes. Em jogos assimtricos a posio de um agente determina quais
as estratgias que pode utilizar e consequentemente a utilidade que pode ganhar.
Resumindo, os agentes que temos em considerao so compostos por uma estrat-
gia s. O conjunto S representa o conjunto de todas as estratgias possveis.
A populao de agentes no esttica pois consideramos que podem surgir novos
agentes e que os residentes podem sair. Em geral a populao est sujeita a um processo
evolutivo (Goldberg, 1989; Hofbauer & Sigmund, 1998) em que a utilidade obtida no
jogo usada como medida de desempenho do agente.
1.6 Estrutura
Este manuscrito est divido em vrios captulos. O captulo 2 apresenta a nomenclatura
utilizada (com mais detalhe do que aquele que foi utilizado nesta introduo) e con-
trape um conjunto de trabalhos relacionados com o problema abordado por esta tese.
Os captulos seguintes so dedicados ao trabalho desenvolvido no mbito da tese. O
captulo 3 descreve o jogo Give-Take que foi desenvolvido com o objectivo de obter um
jogo onde os acordos e a conana nos parceiros fosse essencial. O captulo 4 descreve
o Jogo de Recusa e constitui um dos resultados principais desta tese. O captulo 5
contm a anlise experimental do trabalho desenvolvido e apresentado nos captulos an-
teriores. Este manuscrito termina com o captulo 6 onde so resumidos os resultados
principais desta tese, tecidos comentrios sobre o trabalho e delineadas direces sobre
trabalho futuro.
9
Captulo 2
Matria Relacionada
Neste captulo, comearemos por pormenorizar o problema do controlo de agentes no
cooperantes numa populao de agentes que interagem uns com os outros, apresentado
no captulo 1.
Para alm da descrio do problema, necessrio contrapor com trabalho am. H
um conjunto de reas que estudam a interaco de agentes: Sociologia, Biologia Com-
portamental, Psicologia, IA, VA e TJ. Neste captulo vamos referir modelos matemticos
e algoritmos que esto relacionados com o comportamento dos agentes.
A TJ (Fudenberg & Tirole, 1991; Gintis, 2000) tem como resultado qual deve ser
o comportamento dos agentes tendo como assunes certas capacidades dos prprios e
ainda nos diz que tipo de equilbrio podemos encontrar em determinado cenrio.
Dentro da IA encontramos modelos algortmicos que tentam explicar as causas de
determinado comportamento. Temos tambm algoritmos que podem ser usados por um
agente para calcular qual a melhor aco a efectuar num cenrio de interaco com ou-
tros agentes (Russell & Norvig, 1995; Nilsson, 1998). A vertente da VA tenta explicar a
evoluo de determinados comportamentos a partir de uma base constituda por agentes
simples.
2.1 Teoria de Jogos
ATJ estuda o comportamento dos agentes emqualquer situao que envolva a tomada de
uma deciso ptima (Blackwell & Girshick, 1979) e tem sido aplicada a vrios campos
tais como Economia, Sociologia, Biologia entre outros. Nesta seco, vamos realar
algumas caracterizaes do comportamento dos agentes tais como equilbrio, reputao
e comunicao.
A interaco modelada como um jogo onde cada agente utiliza uma de vrias
estratgias e estas, por sua vez, vo inuenciar os seus ganhos. Cada agente obtm uma
utilidade que na maioria dos casos depende exclusivamente do seu ganho.
11
A TJ permite responder pergunta de qual deve ser a estratgia que um agente deve
utilizar (Fudenberg & Tirole, 1991) tendo em conta determinados aspectos dos agentes
tais como: minimizao das perdas, maximizao dos ganhos, vantagens de uma ali-
ana, garantia de oportunidades iguais, etc. Cada um destes aspectos corresponde a um
determinado tipo de agente.
H duas vertentes na TJ: No-Cooperativa e Cooperativa. Na TJnC um jogo uma
descrio detalhada de todas as estratgias possveis e de quais sos ganhos para combi-
nao. Na Teoria de Jogos Cooperativa (TJC) o jogo foca-se nas possveis combinaes
que os jogadores podem fazer entre si (von Neumann & Morgenstern, 1953). Estas
combinaes surgem muitas vezes sobre a forma de acordos. Uma das crticas apon-
tadas TJC, pela TJnC, a capacidade dos pactos serem cumpridos. Estas diferentes
abordagens a um jogo resultam muitas vezes em solues diferentes para o mesmo
jogo (Bossert et al., 2002).
Relativamente aos comportamentos considerados neste trabalho, a TJ prope algu-
mas explicaes (Charness & Haruvy, 2002; Cooper & Stockman, 2002) para certo ti-
pos de comportamentos cooperativos ou altrustas. Por outro lado, as solues do ramo
da TJnC conseguem explicar porque h certo tipos de atitudes mais egostas do ponto de
vista social.
2.1.1 Nomenclatura
Nesta tese optmos por seguir a vertente da TJnC. Consequentemente, vamos apresentar
a nomenclatura usada para descrever um jogo.
Um jogo a n-jogadores caracterizado por n conjuntos de estratgias, S
i
. Aqui i re-
presenta um jogador, i 1, 2, . . . , n. O conjunto S representa o produto dos conjuntos
S
i
, S = S
1
S
2
. . . S
n
. Se o jogo for simtrico, os conjuntos so todos iguais. Por
vezes quando estivermos a falar do espao de estratgias de um jogador, omitiremos o
subscrito i. Cada um dos n jogadores escolhe uma estratgia s
i
, s
i
S
i
. A estratgia
s
i
pode representar por exemplo oferecer x unidades monetrias ou escolher aco
a. O vector s = (s
1
, . . . s
n
) chama-se perl de estratgias, s S. Existem tambm n
funes ganho,
i
(s) IR. Cada jogador tem uma funo utilidade u
i
, normalmente
u
i
(s) =
i
(s). Assume-se que cada jogador procura maximizar a sua funo utilidade.
Para alm das estratgias s
i
til considerar distribuio de probabilidades sobre S
i
.
Esta distribuio designa-se estratgia mista e representa-se por
i
. A expresso
i
(s
i
)
representa a probabilidade que i atribui a s
i
. De igual modo se estende a noo de perl
de estratgias ao vector = (
1
, . . . ,
n
).
A representao de um jogo, conjunto S e funes
i
(s), pode ser feita sob a forma
de uma matriz a n-dimenses, em que cada posio numa dimenso corresponde a uma
estratgia s
i
. Para jogos simples, a forma matricial denomina-se forma normal de um
jogo. Qualquer jogo pode ser representado na forma matricial, porm, esta forma cresce
12
exponencialmente com a complexidade do jogo e diculta a descrio da ordem de
jogadas.
Outra forma de representar um jogo atravs de uma rvore em que cada n repre-
senta um agente e os ramos que partem dos ns as aces. Existem diversas notaes
para representar a ordem de jogada, a (im)possibilidade de distinguir as jogadas de
outros agentes e as jogadas condicionadas pelas aces de outros agentes. Por estes
motivos, a visualizao do jogo comparativamente mais fcil do que a da matriz em
jogos complexos.
Dada uma representao do jogo, o passo seguinte reduzir o espao de estratgias
associado com vista a eliminar as estratgias que so dominadas. Uma estratgia s
i
S
i
de um jogador i diz-se dominada se existir uma estratgia mista
/
i
sobre S
i
tal que:
u
i
(
/
i
, s
i
) > u
i
(s
i
, s
i
) s
i
S
i
em que (x, s
i
) representa o vector de estratgias (s
1
, . . . , s
i1
, x, s
i+1
, . . . s
n
). Este pro-
cesso de eliminao de estratgias s
i
pode continuar at no ser possvel mais nenhuma
reduo mas assume uma cadeia de raciocnio por parte dos jogadores que comea com
o jogador i
1
sabe que o jogador i
2
sabe que o jogador i
1
e que termina com o jogador
i
1
no vai jogar a estratgia s
j
(s
j
S
i
1
).
Umdos resultados importantes da TJ o Equilbrio de Nash. Umperl de estratgias
mistas,

, um Equilbrio de Nash, se:


u
i
(

i
) u
i
(s
i
,

i
) s
i
S
i
i
Se todos os jogadores previrem que um dado Equilbrio de Nash vai ocorrer, ento
nenhum dos jogadores tem um incentivo para mudar a sua estratgia, pois pela denio
obteria um resultado pior. Todo o jogo com um conjunto nito de estratgias S tem
pelo menos um Equilbrio de Nash. Convm realar que um Equilbrio de Nash tem a
propriedade de que os jogadores conseguem prev-lo, cada jogador prev que os seus
oponentes o previram, . . . . Esta cadeia e a anterior so caractersticas de um jogador
perfeitamente racional.
O conceito de Equilbrio de Nash e a assuno de jogadores perfeitamente racionais
dominaram a TJ. Jogadores com outras caractersticas requerem a incorporao destes
novos dados no jogo. A maior parte das aplicaes em economia deste resultado da TJ
restringem-se aos Equilbrios de Nash.
Se nos restringirmos ao Equilbrio de Nash ou se aplicarmos o procedimento de
eliminao de estratgias dominadas, ento, com a reduo de S, muitos jogos perdem
estratgias mais vantajosas. O jogo IPD foi apresentado pouco depois de surgir o resul-
tado Equilbrio de Nash e dominou as atenes dos cientistas. Este jogo, descrito na
seco 2.3, levanta questes sobre qual a utilidade dos jogadores.
Uma noo importante relacionada com cooperao, estabelecimento de acordos e
13
conana entre agentes a noo ptima de Pareto. Existem diferentes denies para
eleger um perl de estratgias s como sendo ptima de Pareto. Uma das noes utili-
zadas que se um agente mudar a sua estratgia, s
i
, para melhorar a sua utilidade ento
a utilidade de um parceiro seu diminui. Neste trabalho vamos utilizar uma noo que
agrega as utilidades obtidas pelos jogadores. Um perl de estratgias s
OP
ptima de
Pareto se a mdia das utilidades dos agentes for igual ou superior media das utilidades
para qualquer estratgia:

i
u
i
(s
OP
)
n

i
u
i
(s)
n
s S
Para alm desta denio diz-se que um perl de estratgias s Pareto inferior em
relao a outro perl de estratgias s
OP
se u
i
(s) < u
i
(s
OP
).
2.1.2 Cooperao e Coordenao
Em experincias onde so colocadas pessoas a jogar jogos nos quais o Equilbrio de
Nash a previso terica mas este no igual ao ptima de Pareto, os resultados dife-
rem substancialmente da previso. Esta discrepncia levou procura de possveis expli-
caes, sendo de realar: o efeito da reputao como factor dissuasor de uma estratgia
mais penalizante; pessoas altrustas cuja funo de utilidade depende dos ganhos dos
seus parceiros; a comunicao como meio das pessoas se coordenarem na ptima de
Pareto. A anlise terica, ao considerar que a funo de utilidade de um agente depende
exclusivamente do seu ganho, est a assumir que os agentes so mopes por s olharem
para si prprios.
Reputao
A reputao um conceito que tem sido estudado em alguns jogos com vista a compre-
ender o comportamento dos agentes que interagem repetidamente. O conceito aplica-se
quando o jogo repetido vrias vezes (innitamente ou um nmero conhecido de itera-
es ou ainda uma probabilidade do jogo continuar mais uma iterao). Alguns casos
concretos lidam com agentes com diferentes tempos de vida: um agente com um tempo
de vida longo versus muitos agentes com um tempo de vida curto.
Existem trabalhos experimentais que lidam com jogos particulares que modelam um
banqueiro face a um investidor possivelmente desonesto (Brandts & Figueras, 2003).
O efeito da reputao foi estudado nos jogos Batalha dos Sexos e Falces e Pombas
1
que exigem coordenao (Dale et al., 2002), comrcio electrnico (Dellarocas, 2002) e
outros (Berg et al., 1995; McCabe et al., 1998).
1
A seco 2.3.7 descreve estes jogos.
14
Os jogos Batalha dos Sexos e Falces e Pombas no tm um perl ptima de Pareto
e requerem antes coordenao por parte dos jogadores. No trabalho (Dale et al., 2002)
os autores consideram-os como pertencentes ao mesmo tipo. No que toca reputao,
os autores usaram como medida uma varivel que podia tomar 5 valores em que o valor
mais baixo indica um jogador que prefere maioritariamente uma das duas aces dos
dois jogos e o valor mais alto indica um jogador que prefere maioritariamente a outra
aco. Esta medida permitiu que os alunos utilizados nas experincias conseguissem
coordenar num dos Equilbrios de Nash.
O comrcio electrnico um meio passvel de existirem vendedores com produtos
inacionados e compradores desonestos que no pagam. Para quem utiliza um sistema
deste tipo necessrio promover agentes honestos. O trabalho apresentado em (Della-
rocas, 2002) um modelo que ao forar os compradores a reportarem o valor verdadeiro
(do ponto de vista do comprador) do produto que adquiriram leva os vendedores a anun-
ciar o valor verdadeiro do produto. Aqui, a reputao uma medida visvel a todos os
intervenientes, gerida pelo sistema e fruto da participao de todos os utilizadores.
Os jogos Ditador, Ultimato, Investimento e Centopeia
2
envolvem transferncia de
dinheiro entre dois jogadores sendo possveis o aumento dessa quantia, a existncia de
vrias iteraes (determinadas pelos jogadores) e/ou vrias transferncias. Em qualquer
jogo, o Equilbrio de Nash diz que ningum deve transferir dinheiro ou fazer qual-
quer iterao do jogo da resultando que um ou dois jogadores no ganham nada. Esta
soluo contrasta com os resultados referidos em (Berg et al., 1995) onde os autores
apresentam duas experincias envolvendo o jogo Investimento. Nas duas experincias
h uma nica iterao do jogo, mas na segunda os alunos tm acesso aos resultados da
primeira experincia, ou seja, podem ver quantos alunos enviaram dinheiro e quantos
retriburam. Em ambas as experincias, h um grande nmero de alunos que envia di-
nheiro ou retribui. Estes resultados podem ser interpretados tambm luz de normas: o
ser humano tem um conjunto de normas que punem comportamentos inapropriados.
Altrusmo
Existem alguns modelos recentes que tentam explicar o comportamento exibido pelas
pessoas em alguns jogos (Ditador e Ultimato). O altrusmo pode surgir quando a fun-
o de utilidade de um agente depende dos ganhos dos seus parceiros (Gintis, 2000;
Cox, 2004) e uma possvel explicao para resultados experimentais que diferem da
previso terica (Ditador (Gth et al., 2003)).
Anteriormente, dissemos que comum em TJ assumir que a funo de utilidade de
um jogador igual ao seu ganho no jogo, u
i
=
i
. Porm, as experincias relatadas
por exemplo em (Berg et al., 1995) e revistas no ponto atrs, levam a postular que o
ser humano tem embutido no seu comportamento capacidades altrusticas. Os modelos
2
As seces 2.3.2 e 2.3.3 descrevem estes jogos.
15
apresentados em (Gintis, 2000, captulo 11) em que a utilidade dos jogadores uma
funo dos ganhos de todos os n jogadores, ou seja u
i
= f (
1
,
2
, . . . ,
n
), providenciam
uma melhor explicao dos resultados experimentais.
O trabalho relatado em (Cox, 2004) compara o jogo Investimento com os jogos Di-
tador e uma verso do Investimento (neste jogo no claro quais as opes dos alunos
utilizados nas experincias). Apesar de no avanar nenhum modelo para a utilidade dos
jogadores h evidncias de altrusmo e de reciprocidade entre os jogadores. Em (Gth
et al., 2003) so relatadas experincias envolvendo o jogo Ditador e uma verso do
mesmo onde os jogadores trocam de papel. As experincias envolvem pessoas e so
observadas ofertas positivas de dinheiro mas no avanado nenhum modelo que ex-
plique o comportamento dos alunos. Em (Rufe, 1998) so apresentados resultados
envolvendo os jogos Ditador e Ultimato com uma nica iterao. Aqui tambm se
verica um nvel elevado de partilha de dinheiro.
Funo Utilidade
Geralmente a funo utilidade de um agente igual ao ganho que ele obtm no jogo.
Esta assuno no vericada em experincias envolvendo pessoas: com o jogo Dita-
dor (Burnham, 2003); gesto de um bem-comum (Cooper & Stockman, 2002; Budescu
et al., 1995; van Dijk et al., 2002); outros jogos (Andreoni et al., 2002; Brandts &
Figueras, 2003).
Estes trabalhos e os mencionadas nos dois pontos atrs debruam-se sobre possveis
modelos que expliquem a diferena entre os resultados experimentais e a previso te-
rica. Um desses modelos envolve a funo de utilidade dos jogadores enquanto outro
equaciona o efeito da aprendizagem em jogos iterados (Cooper & Stockman, 2002).
A funo utilidade pode expressar o tipo de um agente. Se a funo for proporcional
ao ganho de outros agentes, estamos perante umagente altrusta. No entanto, assumido
que se a funo depender unicamente do ganho do agente, podemos falar de um agente
adverso ao risco.
Comunicao
O efeito da comunicao na seleco de um perl de estratgias quer seja ptima de
Pareto ou Equilbrio de Nash tem sido estudado na TJ. Antes do jogo propriamente
dito, h uma fase em que os jogadores podem trocar mensagens cujo contedo varia
de autor para autor. H trabalhos que estudam quais as caractersticas que o espao
de mensagens deve ter para que a comunicao seja til (Blume, 1998), outros focam-
se em jogos que requerem coordenao (Anderlini, 1999). H trabalhos experimentais
sobre diversos aspectos da comunicao: treino ou prtica do jogo (Burton & Sefton,
2004); conjunto de mensagens igual ao conjunto de aces (Duffy & Feltovich, 2002);
16
envio de mensagens sem restrio (Frohlich & Oppenheimer, 1998; Croson et al., 2003;
Moreno & Wooders, 1998); contedo vinculativo (Charness, 2000).
Quando o acto de comunicar no tem custos acrescidos, costume usar a expresso
cheap talk (Charness & Haruvy, 2002) e esse facto leva alguns autores a duvidar do seu
valor vinculativo.
Mesmo que no haja troca de mensagens explcitas, h estratgias s
i
que podem ter
contedo informativo. Em alguns dos trabalhos revistos nas subseces Reputao e
Altrusmo os autores interpretam uma parte das estratgias S
i
disponveis a um jogador
como ameaadoras e esta interpretao surge com mais frequncia se o jogo for ite-
rado. Um jogador pode usar uma determinada estratgia s
i
para ameaar ou assustar um
parceiro que julgue que no v cooperar.
2.1.3 Teoria de Jogos Evolucionria
A Teoria de Jogos Evolucionria (TJE) um ramo recente da TJ (Hofbauer & Sigmund,
1998; Gintis, 2000). A referncia (Maynard Smith, 1982) apresenta uma reviso da
primeira dcada da TJE. O objecto de estudo da TJE uma populao de estratgias que
interage atravs de um jogo. A proporo das estratgias na populao varia conforme
o seu ganho no jogo e esta variao capturada pela equao seguinte denominada
Equao de Replicao:
x
i
t
= x
i
( f (x
i
) f (x)) (2.1)
onde x
i
representa a proporo da estratgia i, f (x
i
) o desempenho da estratgia i
obtido, por exemplo, atravs da matriz que descreve o jogo, e f (x) a mdia dos de-
sempenhos das estratgias.
No necessrio que x
i
represente a proporo da estratgia i, poderia ser por exem-
plo o a proporo do tipo i na populao. As ferramentas e os resultados da TJE podem
ser aplicados a qualquer problema onde haja adaptao de uma populao de agentes.
Uma das denies que utilizada nesta tese e que convm realar, a Estratgia
Evolucionariamente Estvel (EEE). Esta descrita atravs de estratgias mistas. Diz-se
que uma estratgia uma EEE se para qualquer populao composta por +(1)
com > 0 e sucientemente pequeno, se as condies seguintes se vericam:
u(, ) u( , )
se ,= e u(, ) = u( , ) ento u(, ) = u( , )
onde u(a, b) representa a utilidade da estratgia a quando joga com a estratgia b.
Uma EEE uma estratgia capaz de resistir a pequenas mutaes, da sucientemente
pequeno.
Note-se que h uma ligeira diferena de interpretao entre a utilidade expressa
17
aqui e a apresentada na seco 2.1.1. A denio (revista em (Maynard Smith, 1982))
assume jogos a 2 pessoas e uma matriz quadrada, A, com dimenso igual ao nmero de
estratgias. A utilidade de uma estratgia a quando joga com uma estratgia b dada
por aAb.
O jogo tesoura-papel-pedra um jogo para 2 pessoas semelhante ao utilizado pelas
crianas: tesoura corta papel, papel amassa a pedra, pedra aa tesoura. um jogo
simtrico com 3 estratgias S
i
=t, p, r com a seguinte matriz de ganhos para o jogador
que escolhe linhas:
_
_
0 1 1
1 0 1
1 1 0
_
_
A linha de cima, a do meio e a de baixo correspondem, respectivamente, s estratgias
t, p e r. A coluna da esquerda, a do meio e a da direita correspondem, respectivamente,
s estratgias t, p e r.
um jogo analisado pela TJ mas tem uma propriedade que queremos realar no
mbito de uma populao de agentes. Como no h nenhuma estratgia s dominante,
uma populao composta unicamente por uma nica estratgia s
i
invadida por outra
estratgia s
j
. Neste jogo em particular, a Equao de Replicao tem como ponto xo
(1/3, 1/3, 1/3) o que quer dizer que cada uma das estratgias t, p, r ocupa um tero
da populao.
Daqui em diante quando referirmos ciclo tesoura-papel-pedra estamos a falar de um
jogo onde existe um ciclo de estratgias s
1
, s
2
, . . . , s
m
onde as seguintes condies se
vericam:
i j, k j ,= k
u
j
(s
i
) < u
j
(s
i+1
) > u
j
(s
i+2
)
u
k
(s
i
) > u
k
(s
i+1
) < u
k
(s
i+2
)
Para os ndices de s assumimos as seguintes propriedades da adio: m+1 =1 e m+2 =
2.
Muitos dos seus resultados provm dos Sistemas Dinmicos que agora podem ser
usados para compreender os resultados obtidos em trabalhos que envolvam uma popula-
o sujeita a evoluo (Huck & Oechssler, 1999; Jacobsen et al., 2001; Axelrod, 1984;
Axelrod, 1997b; Wu & Axelrod, 1997).
2.1.4 Discusso
Os jogos e os problemas revistos atrs pretendem analisar situaes de conito, de co-
operao, de coordenao e do impacto da reputao. Foram referidos alguns modelos
de agentes: reputao, altrusmo e mopes. O jogo para alm dos agentes participantes
18
pode ter outras entidades que so responsveis pela vericao das alianas e distribui-
o dos ganhos (leiles).
Nos jogos iterados, para alm de surgirem fenmenos de gesto da reputao e de
altrusmo, os agentes podem usar aprendizagem para melhorarem os seus ganhos. A
aprendizagem serve para adaptar a estratgia do agente s respostas dos seus parceiros.
O protocolo do jogo representa as aces que os agentes podem fazer e tambm
entidades externas tais como: a Natureza que, tipicamente, introduz um elemento de
sorte; um juiz que controla contratos estabelecidos pelos agentes; um rbitro que decide
os ganhos dos agentes aps estes terem feito as suas jogadas (leiles).
Convm fazer uma ressalva aos nomes das vertentes da TJ (TJC e TJnC). A palavra
cooperao no quer dizer que nos jogos analisados pela TJC s possa haver cooperao
e que, atravs da TJnC no seja possvel estudar cooperao. De facto, a existncia de
vrias alianas factor de conito, pois a TJC ao no detalhar as estratgias disponveis
aos agentes, deixa em aberto a possibilidade deles negociarem entre si para obterem a
melhor posio. Por outro lado, na TJnC a possibilidade de um jogo ser iterado traz para
primeiro plano a reputao dos agentes, e esta pode levar os agentes a cooperarem de
modo a aumentarem os seus ganhos.
Os resultados tericos da TJ baseiam-se num conceito de agente, com uma utilidade
igual ao ganho denido no jogo, cuja racionalidade exibe uma cadeia de raciocnio com
o seguinte padro: os meus ganhos so estes, os meus parceiros sabem quais so os
meus ganhos, eu sei que os meus parceiros sabem que . . . . Os resultados experimentais
contradizem estas previses pelo que esto a ser desenvolvidos modelos para capturar
as caractersticas altrusticas e de gesto da reputao que o ser humano tem.
Relativamente s sociedades articiais no necessrio que os agentes articiais
tenham o mesmo tipo de inteligncia e de comportamento social exibido quer pelo ser
humano quer por outros seres vivos que vivem em comunidade (Hauser, 1997). O que
no quer dizer que os modelos desenvolvidos para os seres humanos, como por exemplo
um histrico da interaco, no possam ser usados em sociedades articiais. As soci-
edades articiais tambm tm os seus problemas. A comunicao entre os jogadores
tida como certa no sentido em que o experimentador assume que o receptor recebe
a mensagem que o emissor envia. Num meio distribudo a comunicao no pode ser
descurada. para estas sociedades e os seus agentes que viramos a nossa ateno na
prxima seco.
2.2 Inteligncia Articial
Na seco anterior foi referido que o comportamento cooperante por parte dos agentes
surge quando a sua funo de utilidade depende dos ganhos dos seus parceiros. Na IA
o foco posto na aprendizagem e modelao dos oponentes e em modelos dos agen-
tes. A utilizao de modelos computacionais til para testar por que que certos
19
comportamentos se vericam e outros no (Miller, 1995).
A anlise de SMA recorrendo a tcnicas da TJ encontra-se bem descrita em (Ro-
senschein & Zlotkin, 1994) onde so considerados agentes com objectivos distintos at
agentes cujos objectivos se cruzam e entram em conito.
H um conjunto de algoritmos de aprendizagem que, no contexto de SMA, podem ser
aplicados no clculo da melhor aco a efectuar em determinado cenrio. Estes modelos
permitem analisar e prever o comportamento de um SMA (Vidal & Durfee, 2003; Vidal,
2003).
A capacidade de simular um jogo permite testar e avaliar o que est por detrs de
certos comportamentos. Esta uma das abordagens da VA e em (Miller, 1995) podemos
encontrar uma anlise crtica de como deve ser feita.
H muitos trabalhos na rea da VA
3
que estudam a evoluo da cooperao numa
populao de agentes. A maior parte destes trabalhos recorre ao jogo IPD, mas para
alm deste jogo, h outros trabalhos cuja bancada de ensaio a compra e venda de
bens (Kephart et al., 1998; de la Maza et al., 1998), aprovisionamento de comida (Ac-
kley & Littman, 1994) entre outros (Ito, 1997; Akiyama & Kaneko, 2000b).
A adaptao de um agente s estratgias que os seus parceiros apresentam pode ser
feita indirectamente atravs de um AE ou directamente atravs de aprendizagem. de
referir os processos de aprendizagem por imitao (o agente passa a utilizar a estratgia
do parceiro mais apto (Sigmund et al., 2001)) e por reforo (o ganho obtido em cada
iterao utilizado para anar o modelo do parceiro (Vidal, 2003)).
Os AEs costumam ser utilizados quando se pretende estudar a dinmica da popula-
o. Entre as caractersticas analisadas encontramos estrutura da populao (diferentes
tipos de vizinhana) e estratgias resistentes. Note-se que na maioria dos casos (AE ou
aprendizagem) o ganho obtido na interaco usado como medida de desempenho do
agente.
Dentro da rea de IAD h problemas relacionados com SD tais como a autenticao,
cifragem e segurana. Outros problemas tratados na IAD so a modelao de oponentes
e cooperao (Jennings, 1996) e normas e convenes (Rosenschein & Zlotkin, 1994).
2.2.1 Nomenclatura
No pretendemos levantar aqui a questo do que um agente (Castelfranchi, 1997;
Castelfranchi, 1995). J referimos na seco 1.3 que a interaco entre jogos modelada
como um jogo a n jogadores, pelo que um agente ter sempre uma estratgia s.
Se considerarmos que um agente tem um conjunto de sensores, I, um conjunto de
actuadores, A, e uma funo, : I A, que transforma a informao sensorial em ac-
es (Russell & Norvig, 1995; Nilsson, 1998; Vidal & Durfee, 2003), ento a estratgia
3
Ver por exemplo (Sigmund et al., 2001; Nowak et al., 1994; Nowak & May, 1993; Nowak & Sig-
mund, 1993; Lindgren & Nordahl, 1994; Akiyama & Kaneko, 1997; Beauls et al., 1997).
20

i
no mais do que a funo anterior. Por outras palavras, existe uma aplicao bi-
jectiva entre o espao das funes e o espao das estratgias S
i
. Para simplicar
escrevemos
i
. Estamos a supor que o jogo simtrico. Caso isto no se verique,
ento a funo tem que contemplar todas as n posies que um agente pode tomar
num jogo J a n-jogadores.
Podemos supor que a funo no varia com o tempo ou pelo contrrio o agente
tem alguma capacidade de adaptao, = f (t). Vamos introduzir algumas denies de
agentes. Um agente altrusta aquele cuja funo aumenta o ganho mdio dos jogadores
no jogo J :

altrusta
argmax

i

i
u
i
()
Um agente egosta corresponde a uma funo com o maior ganho para o agente:

egosta
argmax

i
u
i
()
Quando o agente tem uma capacidade de adaptao, a utilidade obtida na interaco
pode ser usada para guiar o processo de adaptao. Neste trabalho s considermos
para o processo de adaptao os AE. De fora caram os algoritmos centrados no agente
e outros focados em populaes.
2.2.2 Arquitectura do Agente
A estratgia uma descrio algortmica de como o agente deve jogar o jogo J . Se
o jogo for iterado, ento o agente poder ter memria das jogadas anteriores, o que
inuenciar as suas jogadas seguintes. O algoritmo de suporte estratgia pode ser um
conjunto de regras de produo (uma regra para cada sequncia de jogadas anteriores
possveis), um autmato de estados nito, um programa numa meta-linguagem ou uma
rede neuronal.
Ao assumirmos que a interaco entre agentes modelada como um jogo J , h dois
elementos que fazem parte da arquitectura do agente: a funo um componente
responsvel por uma sada da arquitectura e o resultado da interaco, u
i
(), uma
entrada da arquitectura.
- -
u
i
()

agente
a
21
Reputao
A reputao uma medida da probabilidade de um agente ser escolhido por outro para
interagirem. Por seu lado, as interaces vo inuenciar a reputao. Como assumimos
a interaco como um jogo, esta probabilidade depende do retorno obtido na interac-
o (Grosz et al., 2002; Sen et al., 2000; Banerjee et al., 2000).
Podemos ter um modelo de reputao privado ou pblico. A denio anterior
enquadra-se no modelo privado. Detalhamos a seguir estes dois modelos.
Pblico Neste modelo, todos os agentes podem dizer qual a considerao que tm por
determinado indivduo (Dellarocas, 2002; Sen, 2002). A informao que cada
agente i
1
envia sobre determinado agente i
2
depende em larga medida da utili-
dade que obteve quando os agentes i
1
e i
2
interagiram. A reputao nal de um
agente i
2
uma funo das informaes enviadas por todos os agentes i
1
com que
interagiu.
A reputao pode ser guardada num repositrio central. Esta vertente pode ter
problemas se os agentes forem mentirosos.
Privado Num sistema de reputao privada, cada agente classica os seus parceiros
mas no h partilha desta informao e esta classicao que pode ser encarada
como reputao (Bazzan et al., 1998; Birk, 2001). Esta medida privada pode ser
usada pelos agentes para recorrerem a uma aco que penalize os seus parceiros.
Esta alternativa foi aplicada ao jogo IPD no trabalho (Bazzan et al., 1998).
Numa populao de agentes que necessita de cooperar para atingir um objectivo
mais susceptvel o aparecimento de um sistema de reputao e conana entre agen-
tes. A necessidade de cooperao entre os agentes leva a que um agente procure saber
quais os agentes em que pode conar para que todos possam alcanar um determinado
objectivo.
Normas
Num SMA as normas podem surgir como aces ou comportamentos que os agentes de-
vem observar (Axelrod, 1986; Axelrod, 1997b) ou como restries s suas aces (L-
pez et al., 2002). As normas implicam por sua vez a existncia de uma entidade que
verique o seu cumprimento e penalize quem no as cumpra (Alexander, 2000). Outra
hiptese a penalizao ser efectuada pelos prprios agentes (Axelrod, 1997b).
Na populao pode existir um conjunto de normas que os agentes observam, po-
dendo haver ou no uma entidade que verique o cumprimento das normas e, em caso
de falha, penalize os infractores. Neste ltimo caso, a punio ter que de efectiva para
que os agentes no desconsiderem o sistema de normas. As relaes entre os agen-
tes (Ashri & Luck, 2003) inuenciam, tambm, a fora das normas.
22
As normas podem entrar em conito com os objectivos dos agentes e, neste caso,
elas esto a restringir a autonomia dos agentes (Conte et al., 1998).
Noutros trabalhos estudou-se a evoluo de normas numa populao (Flentge et al.,
2000; Axelrod, 1986) mas no foi resolvido o problema de como uma norma surge
numa populao de agentes.
Ideia do Outro
Os modelos dos parceiros so teis em problemas de coordenao (Gmytrasiewicz &
Durfee, 2001). Outra das utilidades emsituaes de competio onde os agente podem
tomar vantagem por conseguirem prever as aces dos seus parceiros.
Uma das assunes da TJ a racionalidade do agente expressa pelas cadeias apre-
sentadas na seco 2.1.1: o agente tem a informao I, os outros sabem que o agente
tem I, o agente sabe que os outros sabem que ele tem I, . . . . No entanto, os ganhos que
se obtm quando um agente analisa mais um nvel no so proporcionais ao nmero
de nveis (Gmytrasiewicz & Durfee, 1995). Em termos de espao, o modelo cresce
exponencialmente com o nmero de nveis.
No trabalho (Vidal & Durfee, 1998) os autores compararam modelos de agentes com
diferentes nveis utilizando como bancada de ensaio um SMA envolvendo compradores
e vendedores de vrios bens. O nvel mximo a que chegaram foi: um agente sabe que
o seu parceiro sabe que ele sabe. Concluram que um nvel adicional no equivale a um
aumento do desempenho do agente.
Estes modelos dos outros podem ser obtidos atravs de um processo de aprendiza-
gem (Vidal, 2003; Vidal & Durfee, 1998). O modelo permite ao agente aumentar o seu
desempenho pois capaz de prever, at determinado grau, o comportamento dos seus
parceiros. Estes modelos requerem uma descrio de quais as aces que os parceiros
fazem.
Autonomia
A questo da autonomia considerada por Castelfranchi como um dos pontos fortes
dos SMA (Castelfranchi, 1995). Umagente autnomo pode tomar decises por si prprio
baseadas no conhecimento que vai adquirindo ao longo das suas interaces com outros
agentes e o utilizador que o criou. Estas decises podem passar pela criao de novos
objectivos semelhantes aos criados pelo seu utilizador.
Como exemplo, temos SMA que implementam um modelo econmico (Tesfatsion,
2002). Se aumentarmos a capacidade dos sistemas actuais, tais como o eBay e a Ama-
zon, com agentes que tm a possibilidade de procurar negcios semelhantes aos que o
seu utilizador requisitou, h sempre necessidade de o agente no ser completamente au-
tnomo e concluir o negcio sem a superviso do seu utilizador, pois este pode recusar.
23
Isto visto pela outra parte como uma traio ou recuo para no usar uma palavra to
forte. Existe um limite para a autonomia que um agente pode ter.
Numa populao de agentes autnomos poder haver problemas no que toca coo-
perao e bem-estar social. Um agente completamente autnomo poder ser comparado
a um agente no-cooperante ou explorador, que procura alcanar unicamente objectivos
egostas. No entanto, esta denio pode entrar em conito com o bem-estar da popu-
lao de agentes.
A nosso ver, o principal problema que se pode levantar autonomia a sua deni-
o ser conituosa com a existncia de normas pois defendemos que a sua existncia
restringe o comportamento dos agentes. Uma norma passvel de no ser cumprida e
um agente autnomo livre de decidir se a acata ou no. Uma norma poder dicultar
o alcance de um objectivo por parte de um agente.
2.2.3 Comunicao
Num SMA a comunicao importante pois se o meio sujeito a falhas ou a intruses, os
agentes no so capazes de interagir (coordenao das suas aces). Existem algoritmos
de cifragem que abordam alguns problemas de segurana. O mais relacionado com o
tema deste trabalho a possibilidade de um agente estranho fazer-se passar por um outro
agente e ganhar privilgios quando interage com um agente desprevenido.
H dois problemas tpicos de SD que podem ocorrer num SMA e que descrevemos
brevemente:
Generais Bizantinos Um grupo de n agentes tem de chegar a acordo relativamente a
uma dada informao, (i
1
, i
2
, . . . , i
n
). Se houver mais de um tero de agentes que
enviem informao incorrecta, os outros no conseguem chegar a acordo.
Generais Chineses Se o meio de comunicao no garante a entrega de mensagens,
ento nenhum grupo de agentes consegue chegar a acordo relativamente a uma
dada informao.
Quando necessrio transmitir informao pode-se colocar o problema do canal ser
inseguro ou o emissor ser mal-intencionado. Aplica-se a este caso o cenrio em que os
agentes comunicam as reputaes que tm dos seus interlocutores. No havendo uma
entidade central e segura em que todos conam, poder haver agentes que denigram a
imagem de outros agentes em benefcio prprio.
Alguns algoritmos tentam solucionar o problema da coordenao num meio em que
o envio de mensagens garantido (Lamport et al., 1982; Halpern, 2004), mas colocam
algumas restries no nvel de insegurana (nmero de agentes maliciosos, mensagens
no forjveis).
24
A IAD tem-se preocupado em formalizar o acto da comunicao entre agentes do
qual resultaram algumas Linguagens de Comunicao entre Agentes tais como o Kno-
wledge Query and Manipulation Language. Esta linguagem dene o tipo de mensagens
que os agentes trocam entre si e supe tambm a existncia de uma ontologia comum
aos agentes intervenientes. Outra linha de investigao a vantagem da comunica-
o em situaes que requerem coordenao ou onde h competio (Gmytrasiewicz &
Durfee, 2001).
Dos trabalhos da VA importa realar aqueles que estudam a atribuio de signicado
aos vocbulos com vista a transmisso das intenes que um agente tem. A comuni-
cao implica que os agentes atribuam o mesmo signicado a um determinado voc-
bulo (Steels, 1997; Arita & Koyama, 1998) e a sua no vericao pode ser interpretada
como mentira (Bullock, 1998). Foi analisado emsimulao (Noble, 2000; Noble, 1998),
como dois robots podem usar a comunicao para transmitir a sua fora numa compe-
tio por um recurso. Tambm foi estudado o impacto da comunicao em aumentar o
altrusmo numa populao com poucos recursos alimentares (Ackley & Littman, 1994).
H um conjunto de trabalhos (Werner & Dyer, 1992; Di Paolo, 1997; MacLennan
& Burghardt, 1993) que analisaram a evoluo da comunicao numa populao de
agentes e uma das assunes foi a veracidade das mensagens transmitidas. Cada um
destes trabalhos focou um exemplo especco (escolha de parceiro sexual, localizao
de um tipo de agente).
2.2.4 Evoluo
possvel estudar a interaco entre agentes numa populao como um processo evo-
lutivo. A nomenclatura dos AE utiliza a palavra indivduo. Cada indivduo tem um
gentipo (cromossoma sujeito a um algoritmo evolucionrio) do qual resulta o fen-
tipo (o comportamento e o desempenho do indivduo). Os AE na forma de Algoritmo
Gentico (AG) (Goldberg, 1989; Fogel, 1995), Estratgia Evolutiva (EE) (Schwefel,
1994; Schwefel & Rudolph, 1995) ou Programao Gentica (PG) (Koza, 1992) so
normalmente aplicados a problemas de optimizao. Cada cromossoma avaliado se-
paradamente.
H diferenas entre as vrias vertentes. Os AG utilizam uma populao de indiv-
duos e colocam o nfase no operador de sobre-cruzamento com vista a combinar os
elementos constituintes do cromossoma. As EE trabalham com um ou vrios indivduos
e a gerao de novos indivduos feita principalmente base do operador de mutao.
Note-se que a principal aplicao em optimizao numrica. Na PG os indivduos so
representados por programas pelo que os operadores de sobre-cruzamento e de mutao
so especcos.
Quando passamos para a interaco entre agentes modelada como um jogo a n-
jogadores, normalmente no h uma estratgia ptima. Podemos sim falar em EEE
25
(Maynard Smith, 1982; Hofbauer & Sigmund, 1998). As EEE so caracterizadas por
resistirem a outras estratgias
4
, so pontos xos estveis da populao.
No contexto de um jogo h estratgias melhores que outras, pelo que a evoluo de
uma populao de agentes pode produzir agentes cada vez mais aptos. Alguns bilogos
falam em Corrida de Armas (Dawkins, 1986). Porm no garantido um aumento nas
capacidades dos agentes pois o algoritmo evolucionrio pode produzir um ciclo tesoura-
-papel-pedra
5
, redescobrindo o mesmo conjunto de estratgias (ver por exemplo o tra-
balho (Nol & Floreano, 1998) na Robtica Evolucionria). Quanto implementao
de tal algoritmo, alguns autores (Harvey, 1992b; Harvey, 1992a) defendem que se deve
usar uma populao de agentes quase homogneos relativamente ao fentipo mas evo-
luindo atravs de mutao. Alguns trabalhos sobre co-evoluo na rea da Robtica
Evolucionria (Nol & Floreano, 2000), principalmente sobre predador-presa (Nol &
Floreano, 1998), utilizam quer um AG com os parmetros tradicionais, quer um algo-
ritmo modicado onde dado mais enfse mutao.
H um conjunto de trabalhos que estudam a dinmica populacional recorrendo a
um AE: o jogo IPD o mais utilizado (Axelrod, 1997b; Beauls et al., 1997; Bazzan
et al., 1998; Lindgren & Nordahl, 1994). H sistemas tais como o Tierra (Ray & Hart,
1998) ou o Avida (Adami, 2002) que utilizam um AE para estudar a interaco entre
diversos agentes e medir a evoluo de estratgias mais complexas. Aqui o signicado
de complexidade est no algoritmo utilizado pelos agentes na resoluo dos problemas
que estes sistemas colocam aos agentes. Tanto o Avida como o Tierra so sistemas
onde os agentes so programas de computador escritos numa linguagem semelhante ao
Assembly.
2.2.5 Discusso
A TJ dedica-se ao estudo de jogos que podem ser considerados simples em termos do
nmero de agentes ser pequeno e, em alguns casos, o espao de estratgias tambm
ser pequeno. O problema surge com a complexidade no clculo dos equilbrios que
existem no jogo. No caso geral de um jogo a n pessoas, o clculo do equilbrio cresce
exponencialmente com o nmero de estratgias (aces) e o nmero de agentes. Exis-
tem algoritmos que calculam o equilbrio para certo tipo de interaces (Kearns et al.,
2001). Para o caso geral, existem solues aproximadas.
A anlise da dinmica dos SMA pode ser feita recorrendo TJ j que esta tem ferra-
mentas para calcular os equilbrios que existem numa interaco. No entanto, no caso
geral, um SMA tem mltiplos agentes que interagem localmente (Castelfranchi, 1995).
Existem mecanismos que permitem restringir o comportamento dos agentes atravs da
imposio de normas (Conte & Castelfranchi, 2001) mas os agentes no so obriga-
4
Ver subseco 2.1.3.
5
Ver subseco 2.1.3.
26
dos a observ-las, pelo que se torna necessrio um mecanismo que garanta a excluso
destes mesmos agentes do sistema, para que permaneam os agentes socialmente mais
aptos (Cox, 2004).
Algumas das solues para restringir o comportamento dos agentes s estratgias
socialmente mais correctas foram desenvolvidas para interaces particulares. A IAD
encontra-se ainda na fase de caracterizao dos tipos de interaco mais egostas e do
impacto que as normas podem ter no comportamento dos agentes. A IAD considera
ainda que, se os agentes tiverem um certo grau de autonomia, ento a aceitao das
normas pode depender dos seus motivos (Lpez et al., 2002).
2.3 Jogos
Na seco 2.1 foi referido um conjunto de jogos que so analisados em estudos sobre co-
operao. Estes jogos tm um Equilbrio de Nash diferente do perl ptima de Pareto.
Nas experincias onde so postas pessoas a jog-los, observam-se aces diferentes das
do Equilbrio de Nash. Estes jogos so importantes porque podem ser usados para testar
modelos passveis de serem aplicados em ecossistemas articiais (ver 1.1).
Um dos mais referidos na literatura quer da TJ quer na VA o IPD. Existem outros
jogos para duas pessoas tais como o Ditador e o Ultimato. Relativamente a jogos com
mais de duas pessoas vamos descrever o Dilema do Lenhador.
2.3.1 Dilema do Prisioneiro Iterado
O IPD um a jogo a duas pessoas. As aces disponveis so (C) cooperar e (D) trair.
um jogo simtrico, ou seja S
i
= C, D. A matriz seguinte apresenta os ganhos do
jogador que escolhe linhas, onde a linha de cima e a coluna da esquerda correspondem
aco cooperar:
_
C S
T P
_
(2.2)
Os valores de C, S, T e P tm as seguintes relaes:
_
T >C > P > S
2C > T +S
(2.3)
Se o jogo tiver uma nica iterao, o Equilbrio de Nash ambos os jogadores
trarem pois a aco cooperar dominada pela aco trair. Apesar deste resultado
terico, em experincias com pessoas verica-se que h uma percentagem signicativa
que coopera.
Seja a probabilidade do jogo continuar por mais uma iterao. A estratgia C um
Equilbrio de Nash desde que se verique a seguinte condio (Hofbauer & Sigmund,
27
1998, captulo 9):

T C
T P
O IPD um dos jogos mais estudados no mbito da anlise da cooperao entre
agentes, (dinmica populacional (Boyd & Richerson, 1988; Marshall & Rowe, 2000),
normas (Boyd & Richerson, 2001; Axelrod, 1997b; Boyd & Richerson, 1992; Yamagu-
chi et al., 2000), estrutura da populao (Lindgren & Nordahl, 1994) outros (Brembs,
1996; Stanley et al., 1995)).
um dos jogos mais analisados quer na VA quer como modelo de SMA. Foram
estudados vrios algoritmos para jog-lo: regras de produo, autmato de estados
nitos (Nowak et al., 1995) e regras probabilsticas. Foi bastante diversa a capaci-
dade de adaptao do agente aos seus parceiros: nenhuma capacidade (Sigmund et al.,
2001), memria varivel das jogadas anteriores do mesmo parceiro(Lindgren & Nor-
dahl, 1994), memria do ganho obtido com vrios parceiros (Bazzan et al., 1998). O
ltimo caso um exemplo em que os agentes utilizam um sistema privado de reputao
dos seus parceiros. Este sistema usado pelos agentes para decidirem se querem ou no
voltar a jogar com o mesmo parceiro.
2.3.2 Ditador e Ultimato
Os dois jogos envolvem a repartio de uma quantia em dinheiro entre dois jogado-
res. Um dos jogadores denominado ditador decide como deve ser repartido u unidades
de dinheiro. No jogo Ditador o outro jogador no tem nenhuma aco disponvel,
limitando-se a aceitar o dinheiro que o ditador lhe deu. No jogo Ultimato, o outro jo-
gador pode aceitar ou no a repartio do dinheiro determinada pelo ditador e caso no
aceite, nenhum dos jogadores recebe qualquer dinheiro.
As matrizes seguintes apresentam respectivamente os ganhos do jogo Ditador e Ul-
timato:
_
u, 0 u1, 1 . . . 0, u

(2.4)
_
u, 0 u1, 1 . . . 0, u
0, 0 0, 0 . . . 0, 0
_
(2.5)
O primeiro jogador (o ditador) escolhe colunas enquanto o segundo jogador escolhe
linhas (no caso do Ultimato). Nas duas matrizes, o primeiro elemento do par de valores
diz respeito ao ganho do primeiro jogador. Nas duas matrizes, a coluna da esquerda
indica que o ditador pretende car com o dinheiro todo enquanto na segunda, a linha de
cima indica que o segundo jogador aceita a diviso do dinheiro.
Ao observarmos as matrizes conclumos que a melhor aco para o ditador car
como dinheiro todo e a melhor aco para o segundo jogador (no caso do jogo Ultimato)
28
aceitar qualquer proposta. No entanto, as experincias envolvendo pessoas (Gth
et al., 2003) registam nveis considerveis de divises equitativas do dinheiro. Essa
diviso maior quando h a possibilidade das pessoas voltarem a jogar com os mesmos
parceiros, mesmo desconhecendo a sua identidade (Munier & Zaharia, 2003).
2.3.3 Investimento
Este jogo tal como os dois anteriores envolve transferncia de dinheiro. A diferena
reside em que o dinheiro transferido multiplicado por uma constante e o jogador que
recebe a quantia pode tambm transferir dinheiro. O jogador que envia o dinheiro que
multiplicado chama-se investidor e o jogador que recebe o dinheiro multiplicado chama-
se receptor.
Os ganhos dos investidor e do receptor so, respectivamente:
u(s) = (d
1
e
1
+e
2
, d
2
+ce
1
e
2
) (2.6)
onde d
i
so as quantias iniciais dos dois jogadores, e
i
so as quantias que os jogadores
enviam e c o factor multiplicativo. Supe-se as seguintes restries: d
1
e
1
e d
2
+
ce
1
e
2
.
A diviso equitativa mxima ocorre se e
1
= d
1
e e
2
= (d
2
+cd
1
)/2. Esta diviso
constitui o ganho da estratgia ptima de Pareto:
u(s
OP
) =
_
cd
1
+d
2
2
,
cd
1
+d
2
2
_
O Equilbrio de Nash para este jogo para o receptor car com todo o dinheiro que
recebe e para o investidor, em face da aco anterior no enviar nada ao receptor. No
entanto, este ganho Pareto inferior a u(s
OP
).
u(s

) = (d
1
, d
2
)
Na maior parte das experincias que envolvem pessoas os jogadores recebem a
mesma quantia em dinheiro, d
1
= d
2
. Ao contrrio do que a teoria prev, os investi-
dores enviam em mdia metade do seu dinheiro inicial e os receptores devolvem cerca
de metade do dinheiro que tm. Neste jogo tal como no Ditador e Ultimato as hip-
teses de transferir dinheiro aumentam quando as pessoas podem voltar a jogar com os
mesmos parceiros.
2.3.4 Dilema do Lenhador
O Dilema do Lenhador representa um jogo onde h um bem comum que tem de ser ge-
rido por um grupo de agentes. Neste jogo, um grupo de lenhadores partilha um conjunto
29
de rvores. Em cada iterao cada lenhador pode cortar uma ou vrias rvores ou no
fazer nada. rvores que no so cortadas crescem enquanto as abatidas so distribudas
pelos lenhadores que as cortaram. No existe nenhum conjunto padro de valores para
os ganhos dos lenhadores ou para a dinmica das rvores. Alguns trabalhos analisam
o impacto de diferentes dinmicas de crescimento das rvores (Akiyama & Kaneko,
2000a; Akiyama & Kaneko, 2000b).
Este jogo pertence a uma classe que modela um recurso gerido por um grupo de
agentes. Esta classe conhecida por Dilema dos Comuns e as suas propriedades so
as seguintes: o bem tem de ser tratado pelos agentes para que estes possam usufruir do
recurso; tratar o recurso tem um custo pelo que os agentes podem deixar o tratamento
para outros agentes; se muitos agentes tentam tirar proveito do recurso, a qualidade
deste deca.
H alguns jogos que s tm uma das duas ltimas propriedades e cada uma delas
coloca um dilema diferente aos jogadores: aproveitarem-se dos outros ou extrair o m-
ximo possvel do recurso.
2.3.5 Generais Bizantinos
O problema dos Generais Bizantinos modela uma situao onde um grupo de n agentes
precisa de chegar a comum acordo mas h p agentes que tm um comportamento alea-
trio. O problema apresentado com a seguinte histria: vrios exrcitos esto a cercar
uma cidade e os seus generais tm de decidir se atacam ou no a cidade mas alguns
deles so traidores.
O acordo comum representado por um vector n-dimensional em que cada compo-
nente corresponde informao veiculada pelo agente i. Cada agente envia um tuplo
(contendo informao e o nome do agente que a fornece) utilizado na construo do
vector n-dimensional. O tuplo enviado pelos agentes aleatrios contem rudo pelo que
os agentes com comportamento correcto tm de os identicar para saber quais as com-
ponentes do vector n-dimensional que no interessam.
Existem vrios algoritmos que os agentes com comportamento correcto podem uti-
lizar contra diversos agentes aleatrios de modo chegar a um acordo. Quando cada
agente transmite sempre a mesma informao para um outro agente, ento, os agentes
correctos conseguem chegar a um acordo se no houver mais de um tero de agentes
aleatrios, n < 3 p+1 (Lamport et al., 1982).
2.3.6 Generais Chineses
Este problema modela uma situao em que a comunicao entre um grupo de agentes
no vel havendo perda de mensagens. A sua histria a seguinte: dois exrcitos
azuis esto acampados volta de um vale onde est um exrcito vermelho maior que
cada um dois mas menor que a unio dos dois exrcitos. O problema dos dois exrcitos
30
azuis coordenarem as suas aces tendo em conta que os mensageiros que enviam
podem ser capturados pelo exrcito vermelho. Verica-se que nestas condies os dois
exrcitos azuis nunca conseguem obter conhecimento comum devido inabilidade do
meio de comunicao (Tanenbaum, 1995, pginas 219-222)
2.3.7 Outros Jogos
Vamos aqui descrever os jogos que foram mencionados na seco 2.1. Alguns deles so
utilizados em estudos sobre reputao e/ou coordenao.
Batalha dos Sexos
Este um jogo de coordenao entre dois jogadores e duas aces possveis. Um dos
jogadores, o homem, prefere ir a um evento desportivo enquanto o outro, a mulher,
prefere ir a um evento cultural. Se forem separados, os seus ganhos so nulos.
Na matriz seguinte, a linha de cima corresponde ao evento desportivo enquanto a
coluna da direita corresponde ao evento cultural.
_
a, b 0, 0
0, 0 c, d
_
H as seguintes relaes entre os parmetros:
a > b
a > c
d > c
d > b
Falces e Pombas
Este jogo encontra-se em (Maynard Smith, 1982) e envolve dois tipos de animais que
competem por um recurso: o falco exibe os seus atributos e luta pelo recurso; a pomba
exibe os seus atributos mas foge em caso de luta. Assim pode haver trs possveis
situaes: dois falces exibem-se, lutam pelo recurso e um deles ca com o recurso; um
falco ganha sempre o recurso a uma pomba; duas pombas exibem-se at que uma se
cansa, vai-se embora e a outra ganho o recurso. A matriz seguinte representa os ganhos
desde jogo:
_

_
r c
2
,
r c
2
0, r
r, 0
r
2
,
r
2
_

_
31
onde a primeira linha e coluna correspondem aos falces, r o valor do recurso e c o
custa da luta. Esta matriz assume que quando dois falces lutam a probabilidade de um
ganhar 50% e que quando duas pombas se exibem a probabilidade de uma se cansar
50%.
Numa populao de falces e pombas existe um equilbrio entre os dois tipos para
r <c. Quando o custa da luta menor que o valor do recurso, r >c, os falces dominam
a populao.
32
Captulo 3
Jogo Give Take
No incio deste trabalho foram analisados alguns jogos que pudessem servir como ban-
cada de testes para estudar comportamentos no-cooperantes. O jogo IPD devido sua
maior visibilidade quer na IA, que constitui a rea de formao do autor, quer na TJ foi
um primeiro candidato para tal. Tambm foram analisados outros jogos que envolves-
sem dilemas como o Dilema do Lenhador e outros jogos da classe Dilema dos Comuns
onde h um recurso que tem de ser gerido por vrios agentes. Estes dois jogos foram
revistos nas seces 2.3.1 e 2.3.4.
O jogo IPD no apresenta, segundo a nossa perspectiva, uma possibilidade para v-
rios tipos de acordos, ou seja, ou os agentes acordam que jogam a aco cooperar ou os
agentes utilizam uma estratgia de recurso. Os outros jogos (talvez devido literatura
consultada) tinham uma especicao mais complexa que o jogo IPD. Enquanto o IPD
descrito atravs de uma matriz (ver expresso (2.2)) e duas condies (ver expres-
so (2.3)), o Dilema do Lenhador requer a descrio da dinmica das rvores (cresci-
mento e impacto do abate por parte dos lenhadores) e a repartio da lenha. No que
toca a simulaes computacionais, qualquer dos jogos tem agentes com diversos graus
de complexidade.
Posto isto, desenvolveu-se o jogo Give-Take tendo em vista a simplicidade da des-
crio e consequente grau de complexidade dos agentes em simulaes. um jogo a
dois agentes que tm de partilhar um recurso. Os agentes precisam de um acordo, que
pode ser implcito, para partilhar o recurso j que s um agente pode beneciar da sua
posse por cada iterao. Enquanto a dinmica de outros jogos usados em trabalhos sobre
cooperao tem um nico equilbrio ptima de Pareto (IPD, Ditador e Ultimato) o Give-
Take tem vrios equilbrios e a sua dinmica tem vrios ciclos de tesoura-papel-pedra.
A existncia de vrios ciclos reala a importncia dos acordos, contudo, aumenta as
hipteses de agentes exploradores invadirem uma populao.
Este captulo dedicado sua descrio (seco 3.1), anlise terica (seco 3.2).
O captulo termina com alguns comentrios e comparaes com outro jogos utilizados
em trabalhos sobre cooperao (seco 3.3). A apresentao dos resultados obtidos em
33
simulao deixada para o captulo 5.
3.1 Descrio
3.1.1 Parmetros
O jogo Give-Take um jogo a dois agentes e um nico recurso. S um agente pode
ter a posse do recurso. As aces disponveis aos agentes so: dar o recurso, tirar o
recurso ou no fazer nada. Especicamente, as aces para o agente com o recurso so:
S
r
=give, none
r
; e para o agente sem o recurso so: S
r
=take, none
r
. aco
give corresponde um bnus, enquanto a aco take implica um custo para o actuante e
para o sujeito. A posse do recurso rende um valor. Pelo espao de estratgias, S
r
S
r
,
podemos constatar que um jogo assimtrico e iterado. Note-se que no mbito do jogo
Give-Take, vamos utilizar, na posio de ndice, a letra r para indicar a posse do recurso
e o smbolo r para indicar que o agente no tem o recurso. A lista seguinte resume os
parmetros usados nas matrizes.
p
r
Valor do recurso. A posse do recurso vale p
r
por iterao.
b
g
, c
pt
, c
st
Parmetros das aces. O sujeito da aco give recebe um bnus de b
g
. O
actuante da aco take tem que pagar c
pt
e o sujeito tem que pagar c
st
.
A tabela 3.1 mostra as aces e os ganhos, por iterao, do jogo. A partir desta
tabela podemos extrair as duas matrizes que caracterizam o jogo:
A
r
=
_
p
r
c
st
b
g
b
g
c
st
_
(3.1)
A
r
=
_
0 p
r
c
pt
p
r
p
r
c
pt
_
(3.2)
A matriz A
r
aplicada ao agente com o recurso enquanto a matriz A
r
se aplica ao
agente sem o recurso. Em cada uma delas, a linha superior corresponde aco none
r
enquanto a linha inferior corresponde aco give. Relativamente s colunas, a da
esquerda a da aco none
r
e a da direita a da aco take.
Ao longo deste manuscrito quando mencionarmos a aco none queremo-nos referir
s aces none
r
e none
r
. Por exemplo, se dissermos que os agentes zeram a aco
none quer dizer que o agente que tinha o recurso fez a aco none
r
(no deu o recurso)
e que o agente que no tinha o recurso fez a aco none
r
(no tirou o recurso).
34
com recurso sem recurso
none
r
take none
r
take
none
r
p
r
c
st
0 p
r
c
pt
give b
g
b
g
c
st
p
r
p
r
c
pt
Tabela 3.1: Esta tabela mostra as aces disponveis a cada agente pela posse ou no do
recurso e os respectivos ganhos. O jogador de linha o agente com o recurso enquanto
o jogador de colunas o agente sem o recurso.
3.1.2 Exemplo
Para exemplicar, vamos detalhar um jogo entre dois agentes utilizando um quadro
onde por colunas temos o nmero da iterao, a identicao dos agentes, quem tem o
recurso no m da iterao, as aces feitas (o tempo ui da esquerda para a direita) e o
ganho acumulado. Para representar as aces vamos utilizar o smbolo . para as aces
none, a letra G para a aco give e a letra T para a aco take.
O quadro seguinte mostra a primeira iterao do jogo Give-Take entre os agentes A
e B, em que o agente A comea com o recurso e ambos zeram as aces none.
iterao agente recurso aces ganho
1
A . p
r
B . 0
No prximo quadro podemos ver que o agente Aefectuou a aco give. Tal implicou
um aumento de b
g
no seu ganho enquanto o ganho do agente B subiu p
r
unidades. O
agente B termina a segunda iterao com o recurso.
2
A .G p
r
+b
g
B .. p
r
Na terceira iterao, ambos os agentes fazem as aces none pelo que o ganho do
agente A, que no tem o recurso, mantm-se inalterado. O ganho do agente B aumenta
de p
r
unidades como podemos ver no quadro seguinte:
3
A .G. p
r
+b
g
B ... 2p
r
Na quarta e na quinta iterao ambos os agentes zeram as aces none (s o agente
B aumenta o seu ganho). Na sexta iterao o agente A fez a aco take, logo tem de
pagar o custo da aco e o agente B sofre o efeito desta:
35
6
A .G...T 2p
r
+b
g
c
pt
B ...... 4p
r
c
st
Estes quadros mostram uma sequncia possvel para o jogo. Os ganhos dos agentes
podiam ser diferentes havendo outras estratgias que resultassem em ganhos maiores.
Para compararmos outras estratgias, mostramos agora uma sequncia completa de
trs jogos na tabela 3.2. Esta tabela difere dos quadros anteriores por omitir a coluna
sobre quem tem o recurso e acrescentar uma coluna com o nmero de iteraes que um
agente tem o recurso antes de o dar (ou o tirar). Note-se que se conta a iterao em que
um agente ca com o recurso quer por o receber quer por o tirar.
jogo agente sequncia de aces ganho total t
r
1
A G.G.G.G.G.G.G.G.G.G.G.G.G.G.G. 15p
r
1
B .G.G.G.G.G.G.G.G.G.G.G.G.G.G.G 15p
r
1
2
A ..G.....G.....G.....G.....G... 15p
r
3
B .....G.....G.....G.....G.....G 15p
r
3
3
A ....G.........G.........G..... 15p
r
5
B .........G.........G.........G 15p
r
5
Tabela 3.2: Exemplos de jogadas no Give-Take. O agente A comea com o recurso. A
quinta coluna contem o nmero de iteraes que cada agente tem o recurso antes de o
dar.
Esto representadas 30 iteraes do jogo. Neste caso particular o parmetro b
g
tem
o valor 0, ou seja, dar o recurso no d direito a um bnus. Os agentes nos jogos 1, 2
e 3 cam com o recurso, respectivamente, 1, 3 e 5 iteraes antes de o dar ao parceiro.
Podemos observar que nestes 3 jogos os agentes tm o mesmo ganho e que a melhor
diviso possvel dos ganhos neste jogo. Se porventura os agentes tivessem feito a aco
take, os seus ganhos seriam menores.
Convm ter presente que quando dizemos ca t iteraes com (sem) o recurso antes
de o dar (tirar) ou d o recurso ao m de t iteraes ou tira o recurso ao m de t
iteraes estamos sempre a referir ltima iterao em que o agente recebeu ou perdeu
o recurso, conforme o caso. Na primeira iterao assume-se que. o agente que comea
com o recurso, o recebeu.
Com este exemplo de jogos com ganhos equitativos mximos terminamos esta sub-
seco e podemos avanar para a discusso de quais devem ser as relaes entre os
parmetros deste jogo para que haja um conito de interesses nos agentes.
3.1.3 Dilema
Para que haja um dilema entre dar o recurso e car com ele, preciso introduzir uma
relao entre os parmetros traduzida em duas condies. Na primeira, mais provei-
36
toso car com o recurso do que partilh-lo com o parceiro. Na segunda, entre dar o
recurso ou tir-lo, melhor optar pela aco dar, apesar do agente que d, car mo-
mentaneamente sem o recurso (ganho zero na iterao). Estas condies envolvem trs
cenrios:
O agente com o recurso no o d e o parceiro no o tira. Os ganhos de cada um
por iterao so:
p
r
com recurso (3.3)
0 sem recurso
Os agentes optam por dar o recurso ao m de t
g
iteraes com ele. Os ganhos de
ambos so iguais e o valor por iterao aproximadamente
1
:
1
2
_
p
r
+
b
g
t
g
_
(3.4)
Os agentes tiram o recurso um ao outro ao m de t
t
iteraes sem o recurso. Os
ganhos de ambos so novamente iguais e o valor por iterao aproximadamente:
1
2
_
p
r

c
pt
+c
st
t
t
_
(3.5)
As duas condies podem ser expressas nas seguintes inequaes:
1 A condio car com o recurso em vez de dar expressa pela expresso (3.3) ser
maior que a expresso (3.4):
p
r
>
1
2
_
p
r
+
b
g
t
g
_
Simplicando obtemos:
p
r
>
b
g
t
g
Esta inequao tem de se vericar para todos os valores de t
g
, em particular
quando t
g
= 1. Ora, se garantirmos que a seguinte inequao se verica:
p
r
> b
g
(3.6)
ento, as inequaes anteriores so vericadas pois b
g
b
g
/t
g
t
g
. Sendo assim
vamos escolher a equao (3.6) como representativa da primeira condio.
1
O clculo desta expresso e das seguintes est no apndice A.
37
2 A condio dar o recurso em vez de tirar expressa pela expresso (3.4) ser maior
que a expresso (3.5):
1
2
_
p
r
+
b
g
t
g
_
>
1
2
_
p
r

c
pt
+c
st
t
t
_
Simplicando obtemos:
b
g
t
g
>
c
pt
+c
st
t
t
(3.7)
No entanto esta inequao sempre verdadeira j que a expresso do lado es-
querdo sempre positiva e a expresso do lado direito sempre negativa.
Para que o dilema se coloque necessrio que a inequao, p
r
> b
g
, se verique.
Na caracterizao deste dilema considermos um conjunto restrito de estratgias. Na
seco 3.2 vamos considerar a interaco entre quaisquer duas estratgias e descrever a
dinmica do jogo assumindo que a relao entre os parmetros p
r
e b
g
expressa pela
inequao (3.6).
3.2 Anlise
3.2.1 Espao de Estratgias
Na seco anterior apresentmos algumas expresses para o ganho dos agentes emcasos
particulares de estratgias. Precisamos de uma expresso mais geral para o ganho para
fazer referncia nesta seco. Os quadros e a tabela apresentados na subseco 3.1.2
sugerem que uma estratgia s usada por um agente no Give-Take seja caracterizada por
dois parmetros:
t
g
nmero de iteraes mdias que o agente tem o recurso antes de o dar;
t
t
nmero de iteraes mdias que o agente no tem o recurso antes de o tirar.
Assim, para duas estratgias s
1
= (t
1
g
, t
1
t
) e s
2
= (t
2
g
, t
2
t
), os ganhos por iterao dos
agentes dependem das relaes entre os pares de parmetros (t
1
g
, t
2
t
) e (t
1
t
, t
2
g
). Estas
relaes afectam o nmero de iteraes em que os agentes tm o recurso e em que no
tm o recurso. Se por exemplo t
1
g
<t
2
t
ento o agente com a estratgia s
1
d o recurso ao
m de t
1
g
iteraes e o agente com a estratgia s
2
ca sem o recurso durante t
1
g
iteraes
antes de o receber. Podemos ento apresentar o ganho por iterao da estratgia s
1
:
u
1
(s
1
, s
2
)
1
t
1
r
+t
1
r
(t
1
r
p
r
+F
1
) (3.8)
38
emque os valores de t
1
r
, t
1
r
e F
1
dependemdas relaes anteriores. Oganho da estratgia
s
2
semelhante ao anterior:
u
2
(s
1
, s
2
)
1
t
2
r
+t
2
r
(t
2
r
p
r
+F
2
) (3.9)
mas o tempo que o agente com s
1
ca com o recurso, t
1
r
, igual ao tempo que o agente
com s
2
no est com o recurso, t
2
r
e, de igual modo, o tempo que o agente com s
1
no
est com recurso, t
1
r
, igual ao tempo que o agente com s
2
ca com o recurso. As
constantes F
1
e F
2
so diferentes. O apndice A apresenta os vrios valores que estas
variveis podem tomar.
O ganho de uma estratgia quando joga consigo prpria uma expresso mais sim-
ples j que o tempo com que ca com o recurso e tempo com que no est com o recurso
so iguais. Logo temos a seguinte expresso:
u(s, s)
1
2t
r
(t
r
p
r
+F) (3.10)
Convm referir que as expresses u
i
(s
i
, s
j
) e u
i
(s
j
, s
i
) (para qualquer i e j) so equi-
valentes pois o jogo simtrico (vide seco 2.1.1 na pgina 12).
Na subseco 3.1.2 apresentmos alguns exemplos de sequncias de aces que po-
dem ser caracterizadas pelas relaes entre duas estratgias s
1
e s
2
. Cada uma destas
sequncias composta por perodos delimitados pela iterao em que um dos dois agen-
tes recebeu o recurso (este agente o que comeou o jogo com o recurso). Tomemos
como exemplo o seguinte quadro, semelhante aos apresentados na subseco 3.1.2:
16
A .G..T....T.T.G..
B ....G..T..T....G
Aqui os agentes A e B tm, respectivamente, as estratgias s
1
e s
2
. Neste quadro po-
demos observar 3 tipos de sequncias: a marcada a vermelho dura 5 iteraes, tem um
nico perodo e as relaes entre as estratgias utilizadas neste perodo so t
1
g
< t
2
t
e
t
1
t
=t
2
g
; a marcada a amarelo vai desde a 6
a
iterao 12
a
iterao, composta por dois
perodos e as relaes entre os parmetros das estratgias so t
1
t
< t
2
g
e t
2
t
< t
1
g
; a mar-
cada a azul vai desde a 13
a
iterao 16
a
iterao, tem um nico perodo e as relaes
entre as estratgias so t
1
g
< t
2
t
e t
2
g
< t
1
t
. Note-se que um perodo (e consequentemente
as sequncias) termina na iterao em que o agente, que tem o recurso no incio do pe-
rodo, volta a car com o recurso. Por exemplo, na 5
a
iterao o agente A volta a car
com o recurso logo termina o 1
o
perodo do jogo.
Aps este exemplo, podemos formalizar as relaes entre duas estratgias para o
caso em que as estratgias s so pontos pertencentes a IN
2
. Com esta condio podemos
apresentar a tabela 3.3, onde se observam as nove possveis relaes entre dois pares de
39
t
1
g
<t
2
t
t
1
g
=t
2
t
t
1
g
>t
2
t
t
1
t
>t
2
g
A
.G...
....G
B
/
.G...
.T..G
C
/
.....
.T..G
t
1
t
=t
2
g
B
.G..T
....G
D
.G..T
.T..G
E
/
....T
.T..G
t
1
t
>t
2
g
C
.G..T
.....
E
.G..T
.T...
F
....T
.T...
Tabela 3.3: Classicao da relao entre duas estratgias s
1
e s
2
. Tempo corre da
esquerda para a direita. O agente do topo comea com o recurso.
estratgias s
1
e s
2
: por coluna esto as relaes entre os parmetros t
1
g
e t
2
t
e por linha as
relaes entre os parmetros t
1
t
e t
2
g
. Em cada clula h uma letra em estilo caligrco
que representa a relao respectiva e um exemplo de uma sequncia de aces com um
nico perodo de 5 iteraes.
Vamos introduzir a funo : IN
2
IN
2
Konde K=A, B, C, B
/
, D, E, C
/
, E
/
, F .
Esta funo, dadas duas estratgias s
1
e s
2
retorna a relao entre estas duas estratgias.
As letras presentes na tabela 3.3 representam o resultado da expresso (s
1
, s
2
). Para as
nove relaes utilizmos unicamente seis letras pois existem seis padres de perodos
diferentes:
1 duas aces give (A);
2 duas aces give e uma aco take (B, B
/
);
3 uma aco give e uma aco take (C, C
/
);
4 duas aces give e duas aces take D;
5 uma aco give e duas aces take E, E
/
;
6 duas aces take F .
Nos padres 2, 3 e 5 pode ser necessrio distinguir quem faz que aces, da a existncia
de uma letra com um apstrofo.
A funo (s
1
, s
2
) tem a seguinte propriedade:

s
(s, s) A, D, F
Num jogo entre dois agentes com a mesma estratgia acontece que ou os agentes s
fazem a aco give, ou fazem na mesma iterao as aces give e take (conforme quem
tem o recurso) ou apenas a aco take.
40
Se restringirmos o domnio da funo ao conjunto A, B, C, D, E, F , que repre-
senta os padres de perodos, ento podemos escrever a seguinte propriedade:

s
1
,s
2
(s
1
, s
2
) = (s
2
, s
1
)
Dito de outro modo, o resultado da funo independente da ordem dos argumentos.
Para terminar esta subseco vamos reproduzir gracamente dados relativos ao jogo
Give-Take. Uma estratgia s pode ser representada num plano em que o eixo horizontal
corresponde ao parmetro t
g
e o eixo vertical ao parmetro t
t
. Nos grcos apresenta-
dos a seguir, o eixo horizontal denominado give (por referncia ao nmero de iteraes
em que um agente ca com o recurso antes de efectuar a aco give) e o eixo vertical
denominado take (por referncia ao nmero de iteraes em que um agente est sem
o recurso antes de efectuar a aco take). Nas expresses anteriores esto sempre en-
volvidas duas estratgias s
1
e s
2
. Se mantivermos constante uma das estratgias, por
exemplo s
1
, podemos passar do plano para um grco a 3 dimenses em que nos eixos
horizontal e vertical teremos, respectivamente, os parmetros t
1
g
e t
1
t
e no 3
o
eixo pode-
mos representar a funo (s
2
, s
1
) ou u
1
(s
1
, s
2
). Ao invs de utilizarmos um grco a 3
dimenses, podemos projectar a funo no plano xy.
t
1
t
t
1
g
give
t
a
k
e
A
B
C
B
D
E
C
E
F
s
1
(a) Detalhado
t
1
t
t
1
g
give
A
B
C
B
D
E
C
E
F
t
a
k
e
s
1
(b) Resumido
Figura 3.1: Estes grcos apresentam a funo (s
1
, s
2
) com s
1
xo e s
2
representado
no plano xy. O grco da esquerda apresenta o valor da funo para cada ponto s
2
pertencente a IN
2
enquanto o grco da direita apresenta as fronteiras (linhas vermelhas)
entre pontos distintos.
A gura 3.1 apresenta a funo (s
2
, s
1
) com s
1
xo, os parmetros de s
2
represen-
tados nos eixos (horizontal e vertical) e o valor da funo projectado no plano xy. Esto
representados dois grcos. O da gura 3.1(a) representa o valor da funo (s
2
, s
1
)
(para os valores s
2
IN
2
) atravs de smbolos. Cada smbolo corresponde a cada uma
das letras presentes na tabela 3.3. Como os smbolos esto organizados em 9 zonas dis-
tintas, podemos representar as fronteiras que separam as diversas zonas resultando num
41
16
12
8
4
16
12
8
4
4
2
0
2
4
6
ganho
Ganho Prpria Estratgia
A
D
F
give take
ganho
Figura 3.2: Ganho de uma estratgia quando joga consigo prpria. Este grco foi
obtido com os seguintes valores dos parmetros do Give-Take: p
r
= 6, b
g
= 4, c
pt
= 1 e
c
st
= 10.
grco mais simples de observar. No grco da gura 3.1(b) foram retirados os smbo-
los e representados unicamente atravs de linhas vermelhas as vrias fronteiras. O valor
da funo em cada zona est indicado atravs de uma letra pertencente ao conjunto K.
Note-se que a zona que corresponde letra D ocorre no ponto (t
1
t
, t
1
g
), ou seja, quando
se trocam os parmetros da estratgia xa, s
1
.
Foi indicado o valor da funo (s
2
, s
1
) na gura 3.1 para o caso em que (s
1
, s
1
) =
A. Verica-se que a ordem das zonas a mesma para os outros dois casos em que
(s
1
, s
1
) D, F , ou seja a zona superior esquerda corresponde a (s
2
, s
1
) = A, a
zona superior centro corresponde a (s
2
, s
1
) =B
/
, etc.
3.2.2 Dinmica do Jogo
Agora que introduzimos na subseco anterior um conjunto de ferramentas para repre-
sentar o jogo Give-Take podemos analisar a dinmica do jogo. Vamos fazer uma anlise
semelhante utilizada no livro (Hofbauer & Sigmund, 1998), ou seja, vamos assumir
que temos uma populao de agentes com a mesma estratgia, s
1
, e vamos calcular o
seu comportamento face segunda estratgia, s
2
. Estamos interessados em saber qual a
estratgia s
2
que capaz de invadir a populao.
Comecemos por analisar o ganho da estratgia s
1
= (t
1
g
, t
1
t
) quando joga consigo
prpria e cujo ganho dado pela expresso (3.10). A gura 3.2 apresenta o valor desta
expresso em funo da estratgia num grco a trs dimenses. Os parmetros da
estratgia s
1
esto representados no plano xy (eixos give e take) e o seu ganho est no
eixo vertical.
A gura apresenta trs zonas marcadas com pontos distintos consoante o valor da
42
funo (s
1
, s
1
). A zona com os pontos de maior valor ocorre quando o valor desta
funo A, sendo que os pontos aumentam inversamente com o parmetro t
1
g
, ou seja,
vale mais dar o recurso o mais cedo possvel. A zona com os pontos de menor valor
ocorre quando o valor da funo F . Aqui, os pontos aumentam proporcionalmente
com o parmetro t
1
t
, traduzindo, o ganho tanto maior quanto mais tarde se tirar o
recurso. A terceira zona ca entre as duas anteriores e est associada ao valor D. Aqui
os valores aumentam com os parmetros t
1
g
e t
1
t
.
Concluindo, num jogo entre duas estratgias iguais, o maior ganho ocorre quando o
parmetro t
g
igual a 1 e o parmetro t
t
superior a 1.
Ganhos de s
1
e de s
2
Vamos agora debruar-nos sobre os ganhos das estratgias s
1
e s
2
quando estas jogam
entre si. Para tal precisamos das expresses (3.8) e (3.9). Para apresentarmos um gr-
co com estas expresses vamos xar a estratgia s
1
e fazer variar os parmetros da
estratgia s
2
ao longo dos eixos xy.
Podemos agora observar os grcos presentes na gura 3.3. Tal como no grco da
gura 3.2, o ganho est representado no eixo vertical enquanto os valores dos parme-
tros da estratgia s
2
esto no plano xy (composto pelos eixos give e take). Recorde-se
que s consideramos valores de s
2
tais que s
2
IN
2
. Mais uma vez, foram utilizados
smbolos diferentes conforme o valor da funo (s
2
, s
1
). Ao contrrio do grco ante-
rior, nestes existem 9 zonas distintas. Analisemos com algum detalhe o comportamento
dos ganhos das estratgias s
1
e s
2
em cada uma das zonas, com especial destaque na
estratgia s
2
pois interessa saber qual a estratgia com maior ganho.
Nas zonas correspondentes aos smbolos B
/
, C
/
e E
/
os valores dos ganhos u
1
e
u
2
so constantes. Como existem outras zonas onde o ganho de s
2
maior, no
naquelas que iremos encontrar uma estratgia s
2
melhor que a estratgia s
1
.
Nas zonas correspondentes aos smbolos A e B, o ganho da estratgia s
2
varia
proporcionalmente com o parmetro t
2
g
. Logo, a melhor estratgia s
2
, que en-
contramos nesta zona, a que d o recurso o mais tarde possvel. No entanto, o
maior ganho de s
2
pouco maior que o seu ganho nas zonas correspondentes aos
smbolos B
/
, C
/
e E
/
. O ganho da estratgia s
1
inversamente proporcional ao
parmetro t
2
g
, ou seja, quanto melhor o ganho de s
1
, pior o ganho de s
2
.
Nas zonas correspondentes aos smbolos E e F o ganho da estratgia s
2
varia
unicamente com o parmetro t
2
t
. No entanto, a variao em cada uma das zonas
depende da relao do parmetro t
1
t
com uma determinada constante. Cada uma
das duas zonas tem a sua constante e os seus valores so os seguintes, respectiva-
43
16
12
t
g
1
4
16
t
t
1
8
4
4
2
0
2
4
6
ganho
Ganho Estratgia Varivel
varivel vs fixa
A
B
C
B
D
E
C
E
F
give
take
ganho
(a) Ganho da estratgia s
2
, u
2
(s
1
, s
2
).
16
12
t
g
1
4
16
t
t
1
8
4
4
2
0
2
4
6
ganho
Ganho Estratgia Fixa
varivel vs fixa
A
B
C
B
D
E
C
E
F
give
take
ganho
(b) Ganho da estratgia s
1
, u
1
(s
1
, s
2
).
Figura 3.3: Representao do ganho de duas estratgias. s
1
representada pelo ponto
t
g
, t
t
no plano horizontal (give take), os parmetros da outra estratgia, s
2
, variam nos
eixos give e take. Estes grcos foram obtidos com os seguintes valores dos parmetros
do Give-Take: p
r
= 6, b
g
= 4, c
pt
= 1 e c
st
= 10.
mente:
P
E

c
pt
+c
st
b
g
p
r
P
F

c
pt
+c
st
p
r
Estas constantes so os zeros da equao obtida igualando a expresso (3.9) a zero
e em que t
2
r
a varivel livre. Nestas zonas, as variveis t
2
r
so equivalentes t
1
t
.
Se porventura a relao de t
1
t
com uma das duas constantes de igualdade, ento
o ganho de u
2
na zona correspondente nulo. Se t
1
t
for maior que a constante,
ento o ganho de s
2
inversamente proporcional ao valor de t
2
t
(o ganho maior
se tirar o recurso o mais cedo possvel). Quando t
1
t
menor que a constante, ento
o ganho de s
2
varia proporcionalmente com t
2
t
(o ganho maior se tirar o recurso
o mais tarde possvel).
Se porventura a melhor estratgia s
2
nas zonas E e F fosse capaz de substituir
completamente a estratgia s
1
, ento poderamos recomear o processo de procura
de uma estratgia melhor. Acontece, porm, que quando uma estratgia desta
zona joga consigo prpria, o ganho obtido no o melhor, tal como podemos
vericar na gura 3.2.
s na zona correspondente ao smbolo C que o ganho das estratgias s
1
e s
2
varia com ambos os parmetros t
2
g
e t
2
t
. O ganho de s
1
varia proporcionalmente
44
com t
2
t
e o ganho de s
2
inversamente proporcional a t
2
g
. As outras variaes
dependem da relao entre um dos parmetros (t
2
g
ou t
2
t
) e o valor de uma terceira
constante, cujo valor :
P
C

c
pt
b
g
p
r
Mais uma vez, esta constante o zero da equao obtida igualando a expres-
so (3.9) a zero e em que t
2
r
a varivel livre.
Para t
2
t
> P
C
, t
2
t
= P
C
e t
2
t
< P
C
a variao do ganho de s
1
com o parmetro t
2
g
, respectivamente, proporcional, constante e inversamente proporcional. Para
t
2
g
> P
C
, t
2
g
= P
C
e t
2
g
< P
C
a variao do ganho de s
2
com o parmetro t
2
t
,
respectivamente, inversamente proporcional, constante, e directamente proporci-
onal. No entanto, apesar das possveis combinaes, a melhor estratgia s
2

aquela que d o recurso o mais tarde possvel e o tira logo ao m de uma iterao
sem o mesmo.
O grco presente na gura 3.3(a) foi obtido para as seguintes relaes: t
1
t
> P
E

t
1
t
> P
F
. Em qualquer ponto da zona C nos grcos presentes na gura 3.3 os parme-
tros t
2
g
e t
2
t
so maiores que P
C
.
Diferena entre os ganhos
No ponto anterior, limitmo-nos a analisar separadamente os ganhos de s
1
e de s
2
fa-
zendo uns breves comentrios sobre se a estratgia s
2
poderia ser melhor, sem detalhar
se seria capaz de substituir a estratgia s
1
na populao. Para obtermos a resposta a
esta questo, temos de comparar o ganho da estratgia s
1
quando esta joga consigo pr-
pria e o ganho da segunda estratgia s
2
quando joga com a estratgia s
1
, traduzida na
expresso seguinte:
u
2
(s
1
, s
2
) u
1
(s
1
, s
1
)
Obtivemos o valor de u
2
(s
1
, s
2
) a partir da expresso (3.9) e o valor de u
1
(s
1
, s
1
) a
partir da expresso (3.10). Da resulta que a expresso anterior ca igual:
1
t
2
r
+t
2
r
(t
2
r
p
r
+F
2
)
1
2t
1
r
(t
1
r
p
r
+F
1
) (3.11)
Se para alguma estratgia s
1
, esta expresso for sempre positiva, quer dizer que a estra-
tgia s
1
dominada
2
.
Tal como zemos nos grcos presentes na gura 3.3, aqui tambm os parmetros
da estratgia s
2
esto no plano xy. No entanto, ao invs de utilizarmos um grco a 3
2
Ver denio revista na seco 2.1.
45
t
1
t
P
F
P
E
t
1
g
P
C
give
- +
0
-
+/-
+/-
+/-
+/-
t
a
k
e
(a)
(s
1
,s
1
)=A
P
E
<P
F
<t
1
t
t
1
t
P
F
P
E
t
1
g
P
C
give
+
0
+/-
-
t
a
k
e
(b)
(s
1
,s
1
)=D
P
E
<P
F
<t
1
t
t
1
t
P
F
P
E
t
1
g
P
C
give
+/-
+/-
+/-
+/-
0 +
+
-
t
a
k
e
(c)
(s
1
,s
1
)=F
P
E
<P
F
<t
1
t
P
F
P
E
t
1
t
t
1
g
P
C
give
- +
0
-
+/-
+/-
+/-
+/-
t
a
k
e
(d)
(s
1
,s
1
)=A
t
1
t
<P
E
<P
F
P
F
P
E
t
1
t
t
1
g
P
C
give
+
0
+/-
-
t
a
k
e
(e)
(s
1
,s
1
)=D
t
1
t
<P
E
<P
F
P
F
P
E
t
1
t
t
1
g
P
C
give
+/-
+/-
+/-
+/-
0 +
-
+
t
a
k
e
(f)
(s
1
,s
1
)=F
t
1
t
<P
E
<P
F
Figura 3.4: Estes grcos mostram o valor da expresso (3.11) em funo da estratgia
s
2
. A estratgia s
1
xa e tem coordenadas (t
1
g
, t
1
t
). Esto apresentados os grcos para
as combinaes entre, primeiro, as relaes t
1
t
< P
E
< P
F
e P
E
< P
F
< t
1
t
e, segundo,
os valores de (s
1
, s
1
).
dimenses (onde o valor da expresso (3.11) seria colocado no eixo z), projectmos o
ganho no plano xy, obtendo assim um grco do tipo campo de potencial. A gura 3.4
apresenta os grcos da expresso (3.11) para as combinaes entre, primeiro, as re-
laes entre o parmetro t
1
t
e as constantes P
E
e P
F
e, segundo, os valores da funo
(s
1
, s
1
). Omitimos os grcos para as relaes de igualdade.
Passamos a explicar os smbolos utilizados nestes grcos. Tal como no grco
da gura 3.1(b), nestes tambm demarcmos com linhas vermelhas as zonas em que o
valor da funo (s
2
, s
1
) diferente, omitindo as letras do conjunto K para no sobre-
carregar os grcos. Tanto as linhas vermelhas como as linhas azuis so utilizadas para
separar as subzonas em que o comportamento da expresso (3.11) diferente. O seu
comportamento numa subzona est representado atravs de vectores, do smbolo +/- ou
do nmero 0. Uma subzona com um vector indica um gradiente crescente sendo que
alguns tm um sinal anexado: + () indica que o menor (maior) valor de determinada
46
zona positivo (negativo). Uma subzona com o smbolo +/- indica que o valor da ex-
presso constante. Uma subzona com o nmero 0 indica que o valor da expresso
nulo.
Vamos comear por comentar as guras 3.4(a)(f) do ponto de vista da estratgia s
1
,
isto , conforme o valor da expresso (s
1
, s
1
), e depois do ponto de vista da estratgia
s
1
e do valor da expresso (s
2
, s
1
).
Ponto de vista de s
1
Cada uma das guras 3.4(a)(f) pode ser analisada consoante o
resultado da funo (s
1
, s
1
).
A As guras 3.4(a) e 3.4(d) mostram o desempenho das estratgias s
2
contra s
1
tal que
t
1
g
< t
1
t
. Neste caso, uma estratgia que d o recurso mais tarde sempre melhor
e consegue invadir. Outras estratgias s conseguem invadir dependendo do valor
dos parmetros do jogo.
Se porventura a estratgia s
1
for igual a (1, 2) (parmetro t
1
g
= 1 e parmetro
t
1
t
= 2), ento a expresso (3.11) nunca positiva. Nos grcos presentes na
gura 3.4 desaparecem as zonas C, E e F . A expresso nula na zona A e
negativa nas restantes zonas. Quer isto dizer que no h nenhuma estratgia s
2
melhor que s
1
= (1, 2), no entanto esta estratgia no EEE pois as estratgias s
2
com t
2
g
> 2 e t
2
t
= 1 tm o mesmo ganho, logo, num regime evolucionrio podem
surgir na populao.
D As guras 3.4(b) e 3.4(e) mostram o desempenho das estratgias s
2
contra s
1
tal
que t
1
g
= t
1
t
. Aqui, uma estratgia que tire o recurso mais tarde, consegue invadir.
Esta estratgia ao jogar com s
c
no tem de pagar o custo da aco take. Para alm
deste grupo, no h um conjunto certo de estratgias que consiga invadir.
F As guras 3.4(c) e 3.4(f) mostram o desempenho das estratgias s
2
contra s
1
tal
que t
1
g
> t
1
t
. Aqui, a tendncia que as estratgias, cujo parmetro t
2
t
esteja mais
prximo das constantes P
E
e P
F
, so capazes de invadir. Mais uma vez, existem
outros grupos de estratgias que so capazes de invadir dependendo dos valores
dos parmetros.
Ponto de vista de s
2
Em cada uma das guras 3.4(a)(f) h 9 zonas a que corres-
pondem aos 9 resultados possveis da funo (s
2
, s
1
). Em algumas das zonas (A, E
e F ) a direco dos vectores depende da relao entre, primeiro, as constantes P
C
, P
E
e P
F
e, segundo, parmetros da estratgia s
1
ou s
2
. Detalhamos a seguir a dinmica
correspondente a cada uma dessas 9 zonas:
A Nesta zona, verica-se que, quanto mais tarde a estratgia s
2
d o recurso, melhor
o seu desempenho relativamente a s
1
. Quando s
1
est na zona A, qualquer
47
estratgia s
2
com t
2
g
> t
1
g
melhor que s
1
. Esta caracterstica leva a que a melhor
estratgia s
2
no pertena zona A.
Se considerarmos uma verso do jogo Give-Take reduzida em que no possvel
tirar o recurso, ento as estratgias melhores sero as que derem o recurso o mais
tarde possvel.
Nesta zona, a expresso (3.11) igual a:
1
t
2
g
+t
1
g
(t
2
g
p
r
+b
g
)
1
2t
1
r
(t
1
r
p
r
+F
1
)
Os valores de t
1
r
e de F
1
dependem do valor da funo (s
1
, s
1
).
D Quando a estratgia s
2
pertence zona D, o valor da expresso (3.11) nulo quando
o valor da funo (s
1
, s
1
) igual a D. Caso contrrio, o valor da expresso
pode ser qualquer, dependendo dos valores dos parmetros do Give-Take e dos
parmetros da estratgia s
1
.
Nesta zona, a expresso (3.11) igual a:
1
t
1
t
+t
1
g
(t
1
t
p
r
+b
g
c
pt
c
st
)
1
2t
1
r
(t
1
r
p
r
+F
1
)
F Nesta zona, a direco dos vectores determinada pela relao entre a constante P
F
e o valor de t
1
t
. Para t
1
t
< P
F
, as estratgias que tiram o recurso mais cedo tero
melhor desempenho. Caso t
1
t
> P
E
, ento so as estratgias que tiram o recurso
mais tarde que tero melhor desempenho. De notar que, quando s
1
no pertence
zona P
F
, poder no haver efectivamente nenhuma estratgia s
2
melhor, da a
ausncia de um smbolo +/-.
Se considerarmos uma verso do jogo Give-Take reduzida em que no possvel
dar o recurso, ou seja, o espao de estratgia K est reduzido ao parmetro t
t
,
ento t
t
= P
F
a estratgia com o melhor ganho.
Quando t
1
t
= P
F
e o valor de (s
1
, s
1
) F , todas as estratgias s
2
tm o mesmo
desempenho que a estratgia s
1
, ou seja, a expresso (3.11) nula.
Nesta zona, a expresso (3.11) igual a:
1
t
1
t
+t
2
t
(t
1
t
p
r
c
pt
c
st
)
1
2t
1
r
(t
1
r
p
r
+F
1
)
C Nesta zona, a direco dos vectores inuenciada pela relao do par de variveis
(P
C
, t
2
g
). Quanto mais tarde a estratgia s
2
d o recurso, maior o valor da expres-
so (3.11). Relativamente ao parmetro tirar o recurso, t
t
, se t
2
g
< P
C
ento quanto
48
maior for t
2
t
maior o valor da expresso (3.11). Pelo contrrio se t
2
g
> P
C
ento
quanto menor for t
2
t
maior o valor da expresso (3.11).
Nesta zona, a expresso (3.11) igual a:
1
t
2
g
+t
2
t
(t
2
g
p
r
+b
g
c
pt
)
1
2t
1
r
(t
1
r
p
r
+F
1
)
Como o ganho u
1
(s
1
, s
1
) constante, neste caso a expresso s depende dos va-
lores dos parmetros da estratgia s
2
.
E Nesta zona, a direco do vector determinada pela relao do par de variveis
(P
E
, t
1
t
). A relao semelhante da zona F . No entanto, no caso em que s
1
pertence zona F , quando t
2
t
= t
1
t
o valor da expresso (3.11) no nulo mas
sim positivo. Nos outros casos em que s
1
no pertence zona F no h garantia
quanto ao sinal da expresso (3.11) (ver guras 3.4(a), (d), (b) e (e)).
B Aqui quanto mais tarde a estratgia s
2
d o recurso, maior o valor da expres-
so (3.11). As observaes feitas zona A tambm se aplicam nesta, excepto se
t
2
g
=t
1
g
e (s
1
, s
1
) =A, caso em que a expresso negativa.
B
/
C
/
E
/
O valor da expresso (3.11) uma constante positiva ou negativa devido ao
facto dela depender unicamente dos parmetros da estratgia s
1
e dos parmetros
do Give-Take, parmetros esses, que nos grcos apresentados na gura 3.4 so
constantes. A expresso (3.11) igual a:
1
t
1
t
+t
1
g
(t
1
t
p
r
+F
2
)
1
2t
1
r
(t
1
r
p
r
+F
1
)
3.3 Comentrios
Da anlise do ganho entre duas estratgias s
1
e s
2
, conclumos que para qualquer estra-
tgia s
1
com excepo da estratgia s
1
= (1, 2), existem estratgias s
2
melhores e outras
piores. As melhores estratgias s
2
conseguem, num regime evolucionrio, substituir
uma populao com estratgias s
1
. A estratgia s
1
= (1, 2) a nica cujo ganho maior
ou igual que o ganho entre duas quaisquer estratgias, pelo que convm atribuir-lhe um
smbolo. Assim a estratgia s
1
= (1, 2) representada por s

.
Apesar de nos termos concentrado em analisar duas estratgias, possvel constatar
a existncia de ciclos tesoura-papel-pedra. Tipicamente, os ciclos so compostos na
maioria por estratgias que vericam t
1
g
< t
1
t
. Ou seja, o valor da funo (s
1
, s
1
)
A. Contudo, h uma altura em que surge uma estratgia s
2
melhor e em que t
2
g
> t
2
t
,
49
estratgia essa que, nos grcos das guras 3.4(a) e 3.4(d), est localizada nas zona C,
E ou F .
As simulaes com um algoritmo evolucionrio apresentam diversos ciclos de inva-
so de estratgias (Mariano & Correia, 2002b; Mariano & Correia, 2003). Estes ciclos
ocorrem mesmo no caso em que b
g
>0, apesar de neste caso s a estratgia s comt
g
=1
e t
t
> 1 ser ptima de Pareto. Os resultados destas simulaes sero apresentados no
captulo 5.
A expresso (3.4) mostra que no caso em que b
g
= 0 existem vrios pers de es-
tratgias ptima de Pareto. H um problema de coordenao entre dois agentes. Se a
constante b
g
positiva, ento as estratgias t
g
> 1 so Pareto inferiores, mas devido
dinmica do jogo, um agente ca sempre melhor se der o recurso mais tarde que o seu
parceiro. Contudo, h um ponto em que se o parceiro tirar o recurso ao m de uma
iterao, este ca melhor. Da a importncia de um acordo e de um mecanismo que
puna os agentes infractores (Mariano & Correia, 2002a).
3.3.1 Comparao com outros Jogos
A inspirao para este jogo foi a partilha e gesto de um recurso do qual o jogo Dilema
do Recurso Partilhado (Budescu et al., 1995) um exemplo. No entanto a mecnica
do jogo Give-Take diferente destes jogos, sendo mais semelhante a uma verso iterada
dos jogos Ultimato e Ditador (Burnham, 2003) (ver subseco 2.3.2 para uma descrio
destes jogos).
Supondo uma verso iterada do jogo Ultimato em que os jogadores trocam de papel,
desde que o ultimato seja sempre o mesmo (proposta de diviso de dinheiro) e o jogador
que recebe o ultimato o aceite, ento qualquer ultimato permite que os jogadores obte-
nham ganhos iguais. Com esta verso, os jogadores teriam de acordar a mesma diviso
de dinheiro para as vrias iteraes do jogo. Claro que este acordo pode ser quebrado e
o jogador que recebe o ultimato pode retaliar ao no aceit-lo.
partida, esta verso no apresenta uma dinmica tesoura-papel-pedra. Se incluir-
mos um mecanismo de reputao ou se a utilidade de um agente depender dos ganhos
do seu parceiro, j possvel a existncia deste tipo de dinmica. Porm, resultados
experimentais envolvendo pessoas, em que o jogo (Ultimato ou Ditador) iterado um
nmero conhecido de vezes, no mencionam estes ciclos (Brandts & Figueras, 2003),
focando-se na anlise de um modelo de reputao como possvel explicao dos resul-
tados obtidos.
Enquanto nas experincias em que o jogo Ultimato iterado, o experimentador
que dita o papel das pessoas (ditador e receptor do ultimato), no jogo Give-Take so os
prprios jogadores que podem inuenciar o seu papel na prxima iterao atravs das
aces give e take. Esta uma caracterstica nica desde jogo.
50
Captulo 4
Jogo de Recusa
O jogo que apresentamos neste captulo uma extenso a um jogo J genrico, onde
existe a hiptese de um agente recusar jog-lo, isto : um jogo J com opo de recusa.
Decidimos desenvolver um meta-jogo onde os agentes podem interagir ou no com
determinados agentes. As alteraes que so necessrias arquitectura dos agentes
prendem-se com a funo de deciso de recusa e a respectiva informao de suporte.
A partir deste ponto, poderemos usar a expresso Jogo de Recusa para referirmos o
jogo J com opo de recusa. Vamos comear por descrever em termos gerais as carac-
tersticas deste jogo na seco 4.1, depois procedemos anlise do jogo na seco 4.2,
tecemos algumas consideraes sobre as alteraes no modelo dos agentes na seco 4.3
e terminamos comparando este jogo com solues similares na seco 4.4.
4.1 Caractersticas
4.1.1 Motivao
Pretende-se estender o jogo J de modo a que agentes no-cooperantes no tomem conta
de uma populao de agentes. Faz-se uma extenso a J de modo que cada agente, numa
primeira fase, decide se joga ou se recusa. Quando um agente recusa, no se realiza o
jogo J . Esta extenso no pode alterar os equilbrios no jogo J e como um protocolo,
ela pode ser aplicada virtualmente a qualquer jogo.
4.1.2 Descrio Sumria
Este jogo composto por trs passos. No primeiro passo, os participantes enviam simul-
taneamente uma mensagem de identicao. No passo seguinte, todos os participantes
indicam, novamente em simultneo, se jogam ou se recusam. Deste modo, evitamos ter
de modelar, num cenrio assncrono, o efeito da deciso de um agente sobre todos os
51
Passo 1
Passo 2
Passo 3
Identicao
?
Jogar/Recusar
X
X
X
X
X
Xz

9
Algum recusa Todos jogam
?
Jogo J
Figura 4.1: Diagrama geral do Jogo de Recusa.
que lhe seguem. Se todos anunciarem que jogam, passam ao terceiro passo que consiste
no jogo original J . A utilidade que cada jogador recebe determinada pelas estratgias
usadas por cada um dos participantes. Caso haja algum agente que recuse jogar, ento
todos recebem uma utilidade dita de recusa. A gura 4.1 apresenta um esquema geral
do funcionamento do Jogo de Recusa.
4.1.3 Agentes
Neste contexto, um agente composto por: um mdulo de comunicao, um mdulo
de deciso, um mdulo de modelao dos agentes e uma estratgia s. Os trs mdulos
so usados no primeiro passo do jogo com opo de recusa. O primeiro gera a informa-
o, , transmitida a todos os participantes, enquanto o segundo processa a informao
recebida dos vrios participantes e produz uma resposta quanto recusa ou no. O ter-
ceiro mdulo suporta o envio da informao j que mantm um modelo dos agentes com
quem jogou. este modelo que indica se um agente cooperante ou no. A estratgia
s usada no jogo J .
Vamos supor neste trabalho e no contexto do Jogo de Recusa que as componentes
s e so imutveis durante o tempo de vida do agente. O seu tempo de vida refere-
se aos jogos em que o agente participa de modo a calcular o seu desempenho pelo
algoritmo evolucionrio. Os valores possveis para a informao pertencem a um
conjunto chamado conjunto dos tipos. Este conjunto representado por T e igual a
1, 2, . . .. Vamos supor ainda que um agente s observa a utilidade u que obtm no
jogo J . Segundo a Teoria de Jogos (TJ), a utilidade uma quantidade mensurvel, ou
seja, um valor real, donde resulta que, os nicos dados disponveis para construir um
modelo dos agentes so as informaes e u. Podemos representar este modelo por uma
funo f : (T, IR) recusa, joga. Esta funo subentende a regra de actualizao do
modelo, a deciso de jogar ou recusar e a informao de suporte deciso anterior.
52
4.1.4 Utilidade Recusa
A utilidade de recusa, u
RC
, tem de ser menor que os ganhos no jogo J . Vamos repre-
sentar a menor utilidade que um jogador pode obter no jogo J pela expresso infU, e o
seu valor o nmo do conjunto de todos os valores das utilidades que qualquer jogador
pode obter no jogo J . Sendo assim, a condio de que u
RC
deve ser menor ou igual que
qualquer ganho no jogo J pode ser expressa pela seguinte equao:
u
RC
infU (4.1)
Esta condio garante que qualquer estratgia, onde a aco recusa tem uma proba-
bilidade no-nula de ser jogada, dominada por uma outra estratgia que nunca jogue
a aco recusa. Assim, o jogo estendido igual, em relao a Equilbrios de Nash,
ao jogo original. Igualmente, se analisarmos uma populao numa perspectiva evo-
lucionria, qualquer estratgia que jogue sempre a aco recusa no uma estratgia
evolucionariamente estvel.
4.1.5 Comentrios
O facto do Jogo de Recusa no alterar os equilbrios no jogo original J , leva a supor que
uma populao de agentes cooperantes no ser capaz de resistir a agentes exploradores
ou traidores. Como iremos ver na seco seguinte tal no verdade. Se determinadas
condies se vericarem, os agentes cooperantes conseguem resistir e ser os nicos
agentes na populao numa perspectiva evolucionria. Se elas no se vericarem, ento
necessrio alterar o jogo J para outro em que s os cooperantes prevaleam. Esta
soluo depende, claro, do jogo em questo e por vezes o mtodo ou a alterao pode
no ser extensvel a qualquer jogo.
Apesar de assumirmos que os agentes cooperantes se recusam a jogar com agentes
no-cooperantes, qualquer grupo de agentes que seja capaz de se identicar univoca-
mente pode recusar jogar o jogo J com um agente de qualquer outro grupo. Assim um
grupo, atravs de um processo evolutivo, pode eliminar outros grupos de uma populao
e tomar conta dela, ou seja, a populao passa a ser composta unicamente pelos agentes
pertencentes a um nico grupo.
4.2 Anlise da Dinmica Populacional
Com o Jogo de Recusa pretendemos obter uma populao de agentes capaz de resis-
tir a uma invaso de estratgias que no formam um perl ptima de Pareto. Para a
anlise da populao vamos considerar os dois grupos de agentes que j referimos na
seco 1.3.3:
53
Grupo A As estratgias deste grupo quando jogam com estratgias do grupo B, no
formam um perl ptima de Pareto.
Grupo B Qualquer conjunto de estratgias deste grupo forma um perl ptima de
Pareto.
Para estudar a dinmica populacional vamos recorrer s estratgias evolucionrias,
nomeadamente, Equao de Replicao. Seja x
A
e x
B
as propores de, respecti-
vamente, agentes A e B. Como s temos dois grupos na populao, x
A
+x
B
= 1, s
precisamos de uma varivel: na discusso que se segue, vamos usar a varivel x para re-
presentar a proporo de agentes do grupo A, x = x
A
= 1x
B
. Utilizando a Equao de
Replicao (ver equao (2.1)) e substituindo para o caso do Jogo de Recusa, obtemos
o seguinte:
dx
dt
= x(u
A
u)
= x(u
A
(xu
A
+(1x)u
B
))
= x(1x)(u
A
u
B
)
Ovalor exacto das utilidades u
A
e u
B
depende de como modelamos a interaco entre
os agentes, e tambm de quais so os participantes no Jogo de Recusa. Relativamente
aos participantes, existem quatro situaes:
u
BB
utilidade que os agentes do grupo B recebem quando jogam unicamente com ou-
tros agentes B;
u
AA
utilidade que os agentes do grupo A recebem quando jogam unicamente com ou-
tros agentes A;
u
AB
utilidade que os agentes do grupo A recebem quando jogam com pelo menos um
agente do grupo B;
u
BA
utilidade que os agentes do grupo B recebem quando jogam com pelo menos um
agente do grupo A.
Apesar de assumirmos que os agentes do grupo B so compostos por agentes co-
operantes, na prtica estes grupos podem representar quaisquer agentes, como dissemos
atrs na subseco 4.1.5. Na dinmica populacional, vantajoso que um dos grupos seja
composto por estratgias que formam um perl ptima de Pareto, como vamos mostrar
nesta seco.
Para distinguir as utilidades que os agentes recebem no Jogo de Recusa e no jogo J
original vamos utilizar, respectivamente, os superndices R e J . Formalizando correc-
tamente o modelo da populao que pretendemos analisar, obtemos a seguinte Equao
54
de Replicao:
dx
dt
= x(1x)(u
R
A
u
R
B
) (4.2)
A anlise desta equao consiste em calcular os zeros da expresso do lado direito que
representam os pontos xos da equao (valores em que a variao da proporo de
agentes do grupo A nula). Os zeros desta expresso calculam-se a partir do seguinte
conjunto de equaes:
x = 0
1x = 0
u
R
A
u
R
B
= 0
A resoluo das 2 primeiras equaes imediata, pelo que nesta seco vamos nos
concentrar sobre o valor da expresso u
R
A
u
R
B
.
4.2.1 Utilidade dos Agentes
Como pretendemos que a populao seja composta por agentes do grupo B, estes tm
de, no Jogo de Recusa, identicar e punir correctamente os agentes A, e evitar punir
os agentes B. Isto traduz-se em dois tipos de erros para a utilidade dos agentes B: jogos
envolvendo agentes do grupo A e jogos s com agentes do grupo B.
1 Em jogos com uma composio mista de tipos de agentes, os agentes B podem ou
no jogar a aco recusa. Em caso armativo, ento a utilidade u
RC
. Se
1
a
proporo de jogos em que todos os agentes do grupo B no jogam a aco recusa,
ento as utilidades u
R
AB
e u
R
BA
cam:
u
R
AB
= (1
1
)u
RC
+
1
u
J
AB
u
R
BA
= (1
1
)u
RC
+
1
u
J
BA
2 Em jogos s entre agentes B, um agente pode jogar a aco recusa incorrecta-
mente. Se
2
a proporo de jogos em que pelo menos um agente joga a aco
recusa, ento a utilidade u
R
BB
ca:
u
R
BB
=
2
u
RC
+(1
2
)u
J
BB
Atrs assumimos que os agentes do grupo B formam um perl ptima de Pareto
logo temos u
J
BB
= u
OP
. Optmos por no efectuar esta substituio porque o Jogo de
Recusa pode ser aplicado a quaisquer dois grupos.
55
Relativamente aos agentes do grupo A no nos vamos preocupar se jogam ou no
a aco recusa. Sendo assim a sua utilidade no Jogo de Recusa igual utilidade no
jogo original J :
u
R
AA
= u
J
AA
A tabela 4.1 resume as utilidades dos agentes A e B nas 4 combinaes possveis de
jogos entre eles.
agente participantes utilidade
A
todos A u
R
AA
= u
J
AA
pelo menos
um de B
u
R
AB
= (1
1
)u
RC
+
1
u
J
AB
B
todos B u
R
BB
=
2
u
RC
+(1
2
)u
J
BB
pelo menos
um de A
u
R
BA
= (1
1
)u
RC
+
1
u
J
BA
Tabela 4.1: Utilidade dos agentes A e B.
As propores
1
e
2
derivam dos erros indicados no incio desta subseco e
referem-se fase de identicao e anncio da deciso jogar ou recusar (segundo passo
do Jogo de Recusa).
4.2.2 Utilidade do Grupo
Existem diferentes maneiras de calcular a utilidades dos grupos, u
R
A
e u
R
B
. Cada uma
delas depende de como modelamos a interaco entre os agentes ou seja o nmero de
jogos que cada agente efectua. Regra geral, a primeira funo de u
R
AA
, u
R
AB
e x enquanto
a segunda funo de u
R
BB
, u
R
BA
e x. Vamos analisar os seguintes tipos de interaco:
linear O nmero de jogos com agentes de um determinado grupo directamente pro-
porcional ao nmero de indivduos desse grupo na populao. As utilidades so
as seguintes:
u
R
A
= xu
R
AA
+(1x)u
R
AB
u
R
B
= (1x)u
R
BB
+xu
R
BA
binomial Os agentes so seleccionados (com repetio) proporcionalmente ao seu gru-
po na populao. A probabilidade que n jogadores
1
pertenam ao grupo A x
n
. A
1
Recorde-se que estamos a tratar de um jogo a n jogadores.
56
probabilidade que n jogadores pertenam ao grupo B (1x)
n
. A probabilidade
que os n jogadores pertenam aos dois grupos A e B 1 x
n
(1 x)
n
. As
utilidades dos grupos so as seguintes:
u
R
A
=
x
n
u
R
AA
+(1x
n
(1x)
n
)u
R
AB
1(1x)
n
u
R
B
=
(1x)
n
u
R
BB
+(1x
n
(1x)
n
)u
R
BA
1x
n
Estes modelos supem uma estrutura da populao onde qualquer agente pode in-
teragir com qualquer outro. De fora caram estruturas baseadas em grelhas (toroidais
ou no, vizinhana de Von Neumann, de De Moore, ou outra) ou estruturas em que a
interaco est restrita a uma determinada vizinhana.
Para os dois tipos de interaco podemos calcular os valores das utilidades u
R
A
e u
R
B
quando x 0 e x 1. Na interaco do tipo binomial existem indeterminaes do
tipo 0/0, mas estas foram levantadas. Os valores das utilidades so iguais, independen-
temente do tipo de interaco:
lim
x1
u
R
A
= u
R
AA
lim
x0
u
R
A
= u
R
AB
lim
x1
u
R
B
= u
R
BA
lim
x0
u
R
B
= u
R
BB
Assumindo que os agentes do grupo B no cometem erros, ou seja
1
= 0 e
2
= 0,
podemos utilizar as equaes resumidas na tabela 4.1 para simplicar os trs ltimos
limites. Obtemos ento o seguinte resultado:
lim
x0
u
R
A
= u
RC
lim
x1
u
R
B
= u
RC
lim
x0
u
R
B
= u
J
BB
Os dois tipos de interaco e os limites anteriores so teis para calcular os zeros da
expresso u
R
A
u
R
B
que determinam o tipo dos pontos xos na equao (4.2).
57
4.2.3 Pontos Fixos
Os pontos xos da equao (4.2) indicam para que estado vai uma populao de agentes
A e B. Esta equao j tem dois pontos xos para x = 0 e x = 1, pelo que falta analisar a
expresso u
R
A
u
R
B
. O sinal desta expresso inuencia o tipo dos dois primeiros pontos
xos. Vamos mostrar nesta subseco que existe um nico zero no intervalo ]0, 1[. Seja
x
0
o valor deste ponto xo.
Para o caso em que x 0 e x 1 o valor da expresso u
R
A
u
R
B
, respectivamente,
u
RC
u
J
BB
e u
R
AA
u
RC
. Como assumimos que os agentes do grupo B no cometem erros,
estes valores so, respectivamente, menor que zero e maior que zero.
lim
x0
(u
R
A
u
R
B
) = u
R
AB
u
R
BB
= u
RC
u
J
BB
< 0
lim
x1
(u
R
A
u
R
B
) = u
R
AA
u
R
BA
= u
R
AA
u
RC
> 0
Na interaco do tipo linear a expresso u
A
u
B
uma funo linear em x (polin-
mio de grau 1). Podemos calcular facilmente o zero desta expresso no intervalo ]0, 1[.
Vamos representar o zero por x
0
, o seu valor
2
igual a:
x
0

1
1+
u
R
AA
u
RC
u
J
BB
u
RC
(4.3)
Relativamente interaco do tipo binomial a expresso u
R
A
u
R
B
composta pela
diviso de dois polinmios de grau n. A gura 4.2 apresenta alguns exemplos da ex-
presso u
R
A
u
R
B
para os dois tipos de interaco. Para a interaco binomial, a varivel
n tomou os seguintes valores: 4, 8, 16 e 32. Os valores de u
BB
, u
BA
, u
AB
e u
AA
so cons-
tantes para os vrios casos. Verica-se que a curva da expresso para uma interaco
do tipo binomial aproxima-se da curva da interaco do tipo linear quanto menor for o
valor de n. Quando o valor de n tende para innito, a curva da expresso aproxima-se
do eixo dos xx apresentando descontinuidades em x = 0 e x = 1.
Substituindo os valores das utilidades dos grupos A e B na expresso u
R
A
u
R
B
, para
o caso da interaco do tipo binomial e assumindo que os agentes do grupo B no
2
O apndice B apresenta o clculo deste valor.
58
0
0 0.2 0.4 0.6 0.8 1
u
A


u
B
x
u
R
AA
u
RC

u
RC
u
J
BB

Figura 4.2: Grco de u
A
u
B
para os dois tipos de interaco. A linha azul tracejado
representa a interaco linear. As linhas a vermelho contnuo representam a interaco
binomial para vrios valores de n. Quanto menor for o valor de n, mais prxima est a
linha vermelha da linha azul.
cometem erros, obtemos a seguinte expresso:
x
n
1(1x)
n
(u
R
AA
u
RC
) +
(1x)
n
1x
n
(u
RC
u
J
BB
) (4.4)
Esta expresso crescente no intervalo ]0, 1[. Como os valores da expresso para os
limites do intervalo tmsinais opostos, h umnico zero neste intervalo. Se as utilidades
u
R
AA
e u
R
BB
so iguais, ento x
0
dado pela equao (4.3) um zero de u
R
A
u
R
B
, ou seja,
em termos do grco, as linhas a vermelho e a linha azul intersectam o eixo dos xx no
mesmo ponto x
0
. Caso as utilidades diram, os zeros da expresso anterior situam-se
esquerda de x
0
se u
R
AA
<u
R
BB
e direita se u
R
AA
>u
R
BB
. Quanto maior for o valor de n mais
afastados de x
0
esto os zeros da expresso. Na gura 4.2 temos u
R
AA
= 5 e u
R
BB
= 6.
Para qualquer dos dois tipos de interaco a expresso u
R
A
u
R
B
uma funo mon-
tona e crescente. Como os grupos A e B podem ser compostos por quaisquer agentes, o
valor de x
0
, dado pela equao (4.3), vai representar o zero desta expresso, no intervalo
]0, 1[, para os dois tipos de interaco.
Com esta ltima assuno podemos apresentar os pontos xos relevantes da Equa-
o de Replicao. A gura 4.3 apresenta os pontos xos da equao (4.2). Podemos
dizer ento que o intervalo [0, x
0
[ a bacia de atraco de x = 0 e o intervalo ]x
0
, 1]
a bacia de atraco de x = 1. Da observao da gura 4.3 conclumos que a populao
car s com agentes B se a proporo inicial de agentes A for menor que x
0
, e pelo
contrrio, a populao car s com agentes A se a proporo inicial de agentes A for
maior que x
0
.
59
e
s
p
a

o

f
a
s
e
s
0 1 x
0
Figura 4.3: Pontos xos da equao (4.2) quando os agentes B no cometem erros.
O ponto x
0
representa o ponto xo instvel no intervalo ]0, 1[. Recorde-se que x = 1
corresponde a uma populao composta por agentes do grupo A.
0
0.2
0.4
0.6
0.8
1
-10 -8 -6 -4 -2 0
x
0
u
RC
u
R
AA
< u
BB
J
u
J
BB
= 5
(a) u
J
BB
2, 3, 4, 5
0
0.2
0.4
0.6
0.8
1
-10
3
-10
4
-10
5
x
0
u
RC
u
R
AA
< u
BB
J
u
J
BB
= 10
5

u
J
BB
= 10
4
(b) u
J
BB
10
1
, 10
2
, 10
3
, 10
4
, 10
5

Figura 4.4: Curvas de x


0
em funo de u
RC
e u
J
BB
. Mostram-se dois conjuntos de curvas:
um em que u
J
BB
varia linearmente e outro em que varia geometricamente. A utilidade
u
J
AA
tomou o valor 1. Em ambos o valor mximo de u
RC
1. Recorde-se que x = 1
corresponde a uma populao composta exclusivamente por agentes do grupo A.
Antes de apresentarmos algumas concluses relativas ao valor que devemos utilizar
para u
RC
, convm mostrar como varia o valor de x
0
no intervalo ]0, 1[. A gura 4.4
apresenta dois grcos onde esto representadas algumas curvas de x
0
em funo do
valor de u
RC
e de u
J
BB
. Essas curvas referem-se ao caso em que u
R
AA
< u
J
BB
, ou seja,
correspondem assuno de que os agentes do grupo B so compostos por agentes
cooperantes. No caso de u
R
AA
>u
J
BB
as curvas so simtricas s representadas em relao
ao eixo dos xx.
Nas curvas apresentadas o valor de u
R
AA
foi xado em 1. O valor de u
J
BB
variou
linearmente ou geometricamente. Nos dois casos, a curva de x
0
mais suave quanto
maior for a diferena entre u
R
AA
e u
J
BB
. Em qualquer caso, o valor de x
0
tende para 1/2
quanto menor for o valor de u
RC
. Na curva em que u
J
BB
=10
4
o valor de x
0
est prximo
de 1/2 quando u
RC
=10
5
.
Dissemos no incio deste captulo que o valor de u
RC
deve ser menor que qualquer
ganho no jogo J . Esta condio est expressa na equao (4.1). Porm, nos grcos
60
da gura 4.4, o valor mximo que u
RC
tomou foi u
R
AA
. Neste caso, o ponto xo x
0
colide com o ponto xo x = 1 e assim, mantm-se as concluses retiradas da gura 4.3
e apresentadas atrs.
4.2.4 Propores
1
e
2
Nas subseces anteriores assumimos que os agentes no passo 2 do Jogo de Recusa
no cometem erros de classicao dos seus parceiros. Isto traduziu-se em
1
= 0 e

2
= 0. Nesta subseco vamos analisar que valores estas duas propores (de jogos
onde ocorrem erros) podem tomar sem alterar o tipo dos pontos xos representados na
gura 4.3. Para que o valor do ponto xo x
0
se mantenha no intervalo aberto ]0, 1[ tem
de se vericar as seguintes condies:
u
R
AA
u
R
BA
> 0
u
R
AB
u
R
BB
< 0
As expresses no lado esquerdo destas duas inequaes so os valores que a ex-
presso u
R
A
u
R
B
toma para, respectivamente, x = 0 e x = 1. Utilizando as expresses
representadas na tabela 4.1, obtemos para a primeira condio a seguinte inequao:

1
<
u
R
AA
u
RC
u
J
BA
u
RC
(4.5)
Para segunda condio obtemos a seguinte inequao:
u
J
AB
u
RC
u
J
BB
u
RC

1
+
2
< 1 (4.6)

2
A
1
B
(a) Caso geral

1
1
A,B,1
(b) u
RC

1
B 1 A
1
(c) Constantes A e B aumentam
Figura 4.5: Grco das condies das propores
1
e
2
.
Estas duas condies podem ser demonstradas gracamente. Em todos os grcos
da gura 4.5, as propores
1
e
2
esto representadas, respectivamente, no eixo hori-
61
zontal e no eixo vertical. A primeira condio divide o plano das propores atravs de
uma recta vertical de abcissa
1
= A, em que A simboliza a fraco
u
R
AA
u
RC
u
J
BA
u
RC
. A segunda
condio representa uma recta que intersecta o eixo dos
2
no ponto (0, 1) e o eixo dos

1
no ponto (B, 0), com B =
u
J
BB
u
RC
u
J
AB
u
RC
. Os valores vlidos das propores
1
e
2
so
representados por um polgono delimitado pelos eixos das propores, pelas duas rectas
das duas condies e pela recta de abcissa
1
= 1.
O valor de u
RC
inuencia a satisfao das condies expressas nas inequaes (4.5)
e (4.6). Se u
RC
as duas fraces tendem para 1, logo a soma das duas propores
no pode exceder 1 (ver a gura 4.5(b)). Se u
RC
infU ento o valor das constantes
A e B depende da relao de ordem entre as outras utilidades presentes nas fraces.
Se u
R
AA
> u
J
BA
e u
J
BB
> u
J
AB
ento as duas constantes aumentam, logo a nica restrio
a vericar a segunda condio. O grco presente na gura 4.5(c) reproduz esta
situao. Caso contrrio, a rea do polgono pode diminuir e ser zero se B =0 ou A =0.
Se porventura o valor da proporo
1
for zero, ou seja, os agentes B conseguem
identicar correctamente os agentes A, ento a proporo
2
s tem de ser menor que 1.
Quer isto dizer, que basta um Jogo de Recusa entre agentes B atingir o passo 3 (nenhum
agente B classica incorrectamente um parceiro), para que a condio (4.6) se verique.
4.2.5 Valor de u
RC
Da observao das guras 4.3, 4.4 e 4.5 e da expresso (4.3) podemos tirar as seguintes
concluses:
1 Se o valor da utilidade de recusa, u
RC
, for pelo menos de uma ordem de grandeza
superior
3
s utilidades u
R
AA
e u
R
BB
ento x
0
1/2. Na gura 4.4 quando u
RC
=
10inf u, o valor do ponto xo x
0
j est prximo de 1/2. Recorde-se que, quanto
mais prximo o ponto xo x
0
estiver de 1/2, a proporo de agentes com maior
ganho entre si no pode ser menos do que 1/2.
No caso limite em que u
RC
, temos que u
RC
u
R
AA
e u
RC
u
R
BB
, logo
podemos fazer as seguintes simplicaes: u
R
AA
u
RC
u
RC
e u
R
BB
u
RC

u
RC
. Aplicando-as na expresso para o ponto xo x
0
, obtemos:
1
1+
u
R
AA
u
RC
u
R
BB
u
RC

1
1+
u
RC
u
RC
=
1
2
3
Se por exemplo u
R
AA
= 2 e u
R
BB
= 5, um valor de -20 para u
RC
j de uma ordem de grandeza
superior.
62
2 Se o valor da utilidade de recusa, u
RC
, for igual ao nmo do conjunto das utili-
dades do jogo J , ento o ponto xo x
0
colide ou com o ponto x = 1 se u
R
AA
< u
R
BB
ou com o ponto x = 0 se u
R
AA
> u
R
BB
. No primeiro caso, o ponto x = 1 passa a
ser um ponto xo instvel: qualquer perturbao, na composio da populao,
leva-a para o ponto xo estvel x = 0. No segundo caso, o ponto xo x = 0 que
passa a ser um ponto xo instvel.
Recordamos ento que, uma pequena proporo de agentes com maior ganho
entre si na populao, leva a que estes agentes aumentem de proporo e passem
a ser os nicos agentes na populao.
3 Se o valor da utilidade de recusa for da mesma ordem de grandeza das utilida-
des no jogo J , ento o grupo que tiver maior utilidade no precisa de uma maior
proporo de agentes na populao para que a Equao de Replicao (4.2) de-
termine que este grupo de agentes passe a ser o nico representante na populao.
4 Se o valor de u
RC
igual a infU ento necessrio vericar as condies expres-
sas pelas equaes (4.5) e (4.6). Se o valor de u
RC
for prximo e no igual a infU,
ento podemos aceitar um valor no nulo para as propores
1
e
2
. Isto porque
as constantes A e B presentes nos grcos da gura 4.5 nunca so nulas, ou seja,
a rea do polgono maior que zero.
5 O valor do ponto xo independente do nmero de jogadores, n, que o jogo J
necessita.
Estas observaes sugerem que u
RC
seja da mesma ordem de grandeza do nmo do
conjunto de utilidades do jogo J .
Resultados preliminares do Jogo de Recusa foram apresentados em (Mariano &
Correia, 2004). Podemos interpretar a jogada recusa como uma sano que um agente
decide impor aos participantes do jogo J . Est subentendido que existe uma entidade
que cumpre as regras do Jogo de Recusa, tal como para qualquer jogo J . A interpreta-
o e o signicado do Jogo de Recusa pode ir alm das sanes. Podemos estabelecer
um paralelo com a noo de normas: normas so regras estabelecidas por uma entidade
que os indivduos devem seguir. No nosso entender, no Jogo de Recusa talvez no
seja possvel indicar que os agentes esto a seguir normas. A jogada recusa implica
uma sano que imposta pela entidade que rege e verica as regras de qualquer jogo.
O Jogo de Recusa sugere que as sanes so ecazes no combate a comportamentos
no-cooperantes.
As anlises efectuadas nesta seco recorreram Equao de Replicao. O mo-
delo assume que todos os agentes interagem com todos os outros um nmero innito de
vezes. Porm h trabalhos experimentais envolvendo o IPD (ver por exemplo (Nowak
et al., 1994; Sigmund et al., 2001)) em que a estrutura da populao (inuencia com
63
quem um agente pode interagir) determina a capacidade de um agente com uma de-
terminada estratgia sobreviver ou no. Por sobreviver entende-se a sua proporo na
populao manter-se acima de 0 por tempo indeterminado. Na prxima seco vamos,
entre outros assuntos, abordar a questo da estrutura da populao.
Independentemente de quem vigia o cumprimento do Jogo de Recusa, s neces-
srio que os agentes interajam uns com os outros para que possam basear a sua deciso
de jogar ou recusar. No h, com efeito, nenhuma entidade central onde so colocados
os resultados de todos os jogos e que qualquer agente pode consultar. Recordando o
que dissemos no incio deste captulo na seco 4.1.3, cada agente composto por uma
funo f : (T, IR) recusa, joga. O primeiro argumento a informao transmitida
no incio de cada jogo, e o segundo argumento a utilidade que o agente obteve no
jogo J . Estes dois argumentos so obtidos em cada jogo, e os agentes at poderiam
disponibiliz-los para o resto da populao.
Ao escolhermos para u
RC
um valor da ordem de grandeza do nmo do conjunto das
utilidades do jogo J , temos de analisar em que condies que os agentes do grupo
B conseguem identicar correctamente agentes do grupo A. Na prxima seco vamos
tambm analisar alguns aspectos que inuenciam a proporo
1
(jogos em que nenhum
agente do grupo B se recusa a jogar com agentes do grupo A).
4.3 Anlise dos Jogadores do Jogo de Recusa
Na seco anterior focmos a anlise no comportamento de uma populao. Agora va-
mos debruar-nos sobre o modelo do agente e a sua inuncia no desempenho do agente.
Os valores, que as propores
1
e
2
tomam, resultam em parte do comportamento dos
agentes, e este por sua vez, restringido pela correspondncia entre a identicao dos
agentes e a estratgia usada.
O objectivo obter uma relao entre as propores e os parmetros que regem o
comportamento dos agentes. Se tivermos tal relao, ela contm unicamente parmetros
do Jogo de Recusa, podendo assim vericar se os resultados obtidos numa simulao
esto em concordncia com a relao obtida.
4.3.1 Quando se deve recusar
A deciso de recusa implica um perodo de aprendizagem. Em cada gerao, os agentes
poderiam nascer com uma deciso pr-denida. Porm recusar jogar com um deter-
minado tipo de agente logo ao primeiro jogo, impediria a observao de qual o com-
portamento associado a esse tipo de agente. Vamos assumir que existe um perodo de
observao durante o qual o agente joga sempre. Este perodo traduz-se num certo n-
mero de parceiros com quem o agente nunca recusa jogar, sendo que este nmero igual
para todos os tipos de agentes.
64
Vamos ilustrar esta noo do perodo de observao com um exemplo. Seja p =
3 o nmero de parceiros de um dado tipo que os agentes tm de encontrar antes de
eventualmente poderem recusar jogar com parceiros desse tipo. Suponha-se que o jogo
J um jogo a 3-jogadores. Suponhamos ainda que o agente joga dois jogos. Os
tipos dos parceiros do primeiro jogo so
1
,
1
e do segundo jogo so
1
,
2
. Se no
terceiro jogo o agente encontrar um parceiro do tipo
1
ento poder recusar jogar o
jogo J , pois nos jogos anteriores j encontrou 3 = p parceiros do tipo
1
.
Interessa calcular a probabilidade de um agente encontrar um dado parceiro com um
determinado tipo mais do que p vezes. Se esta probabilidade for baixa, o agente no
poder tirar proveito do Jogo de Recusa. Esta probabilidade depende do nmero de
elementos do conjunto dos potenciais parceiros e do conjunto dos tipos: o conjunto que
tiver menos elementos vai inuenci-la. Seja X
1
o evento encontrar um tipo de agente
mais do que p vezes e X
2
o evento encontrar um parceiro mais do que p vezes. Para o
clculo das probabilidades de ocorrncia destes eventos vamos assumir que p = 1.
O clculo destas probabilidades pode ser aplicado a uma srie de m jogos a n-
jogadores. Em qualquer dos eventos temos de fazer x =m(n1) sorteios com reposio
de um conjunto. Para o evento X
1
temos de tirar elementos do conjunto dos tipos, T,
e para o evento X
2
temos de tirar elementos do conjunto dos parceiros de um agente,
V. Seja C o conjunto do qual so retirados elementos e y o nmero de elementos desse
conjunto. A probabilidade do agente voltar a encontrar um dado elemento :
P(X) 1
_
y 1
y
_
x
Esta probabilidade tanto menor quanto maior for o nmero de elementos do conjunto
C mas tanto maior quanto maior for o nmero de sorteios. Se o conjunto C representa
o conjunto dos parceiros ento o nmero de elementos (varivel y) xo, logo temos
que variar o nmero de sorteios de modo a que a probabilidade do agente voltar a en-
contrar um determinado elemento no seja negligencivel. Se porventura o conjunto C
representa o conjunto dos tipos, ao variarmos o nmero de elementos vamos inuenciar
a capacidade de distino dos vrios agentes. Na prxima subseco iremos abordar
este aspecto.
Se porventura, o perodo de aprendizagem, durante o qual o agente nunca recusa,
superior a 1, ou seja p > 1, necessrio subtrair mais alguns factores probabilidade
anterior. Quer dizer que a probabilidade do agente encontrar um dado elemento mais do
que p vezes dada por:
P(X) 1
p1

i=0
_
1
y
_
i
_
y 1
y
_
xi
(4.7)
Esta expresso representa tambm a probabilidade do agente ter a hiptese de recusar
65
jogar um jogo J contra um dado elemento.
Em cada jogo os agentes do Jogo de Recusa conseguem observar os tipos dos seus
parceiros e os seus ganhos e podem utilizar esta informao para obter um perl do
tipo dos agentes com quem interagem. Findo o perodo de aprendizagem, um agente
pode utilizar a informao recolhida para decidir se continua a jogar com agentes de
determinado tipo ou, se pelo contrrio, prefere recusar.
Quando um agente tem um perodo de aprendizagem longo, isto , p >1, ele poder
ser explorado p vezes pelo mesmo agente. Da observao da expresso (4.7) a probabi-
lidade de voltar a encontrar um determinado elemento aumenta proporcionalmente com
o nmero de sorteios. Podemos contrabalanar um valor elevado para p com um valor
tambm elevado do nmero de sorteios (varivel x). Se houver restries temporais,
podemos utilizar p = 1 para que o nmero de sorteios seja pequeno. Convm relembrar
que a avaliao de um agente no mbito de um algoritmo evolucionrio consiste em m
jogos.
4.3.2 Identicao e Estratgia
Parte do Jogo de Recusa consiste na identicao entre si dos agentes. No zemos
nenhum comentrio acerca dos requisitos que os agentes devem cumprir, logo podem
ocorrer, por exemplo, as seguintes situaes: a mesma identicao ser usada por agen-
tes com diversas estratgias; um agente usar identicaes diferentes nos jogos em que
participa. Podemos construir populaes com as mais variadas constituies e analisar
o seu desempenho. Para alm das situaes descritas atrs, podemos ter: populaes
compostas por agentes honestos ou mentirosos; agentes com uma capacidade limitada
de distino atravs de um resumido espao de identicaes.
Pretendemos relacionar as propores
1
e
2
com a probabilidade condicionada
P([s) (como apresentmos no incio deste captulo, representa o tipo do agente e s
representa a estratgia utilizada no jogo J ) e com o perodo durante o qual um agente
nunca recusa, p. Apesar das propores serem obtidas experimentalmente, ao termos
equaes para
1
e
2
, ao substitu-las nas inequaes (4.5) e (4.6) obtemos um conjunto
de inequaes que tem unicamente parmetros da simulao. Podemos ento saber se,
com determinado conjunto de parmetros, as propores so nulas (no h erros de
identicao) e os agentes B conseguem aumentar a sua proporo na populao.
Do ponto de vista de um agente, a identicao, que corresponde ao passo 1 na -
gura 4.1, pode ser caracterizada por um vector = (
i
1
,
i
2
, . . .) em que cada componente

i
j
a informao transmitida pelo parceiro
j
. Cada agente utiliza ento este vector no
passo 2 do Jogo de Recusa para decidir se recusa ou se joga.
Dissemos no incio deste captulo que para qualquer agente , o mdulo de deciso
utiliza o mdulo de modelao dos agentes. Este constroi um modelo dos agentes que
depende da utilidade obtida nos jogos e do tipo dos parceiros de jogo. Uma regra de
deciso pode simplesmente olhar para a utilidade mdia que obteve quando jogou
66
P(s[) T

B
S
s
A
s
B
-
@
@
@
@
@
@
@
@
@R-

1
2

1
1
1
Figura 4.6: Canal binrio
com um agente de um tipo . Se essa utilidade mdia for igual ou superior a u
OP
, ento
provavelmente o tipo corresponde a um agente do grupo B (supondo que pertence
ao grupo B) e deve voltar a jogar com um parceiro do tipo .
O passo 1 do Jogo de Recusa pode ser analisado do ponto de vista de um canal de
comunicao: os parceiros enviam uma mensagem com o seu tipo e o agente tem de
decidir a que grupo pertence esse tipo. A gura 4.6 apresenta em traos gerais o que
pode acontecer. O agente recebe um tipo que est associado ao grupo A e assume com
probabilidade 1
2
que pertence ao grupo das estratgias A. O outro cenrio consiste
no agente receber um tipo que est associado ao grupo B e assumir com probabilidade
1
1
que pertence ao grupo das estratgias B.
A distribuio de pares estratgia-tipo numa populao pode ser representada numa
tabela semelhante tabela 4.2. O conjunto das estratgias de um dado jogo J pode
ser decomposto em dois subconjuntos: S
A
com as estratgias exploradoras; S
B
com as
estratgias cooperantes. O problema de distino entre estratgias A e B pode ser resol-
vido com dois tipos: s estratgias A e B correspondem, respectivamente, os tipos
A
e

B
. Podemos considerar cenrios mais complexos, com mais de dois subconjuntos de
estratgias ou com um nmero de tipos superior a 2, mas para efeitos de anlise vamos
utilizar o cenrio apresentado na tabela 4.2: 2 tipos e 2 subconjuntos de estratgias.
Um dos dois casos ideais de distino perfeita de uma estratgia dado um tipo est
apresentado na tabela 4.1(a). Este caso um de dois em que a entropia H(s[) 0.
Podemos expressar as probabilidades apresentadas na gura 4.6 em funo das pro-
pores
1
e
2
(ver subseco 4.2.1). Estas por sua vez, podem ser expressas em funo
das probabilidades condicionadas P(s[). Sendo assim, olhando para a gura 4.6 e para
a tabela 4.1(a) podemos estabelecer as seguintes relaes: a proporo
1
corresponde
67
(a) Identicao
perfeita
P(s[)

A

B
S
A
1 0
S
B
0 1
(b) a
11
+a
12
= a
21
+
a
22
= 1 e a
i j
> 0,
P(s[)

A

B
S
A
a
11
a
12
S
B
a
21
a
22
Tabela 4.2: Distribuies vrias de pares estratgia-tipo numa populao de agentes.
probabilidade condicionada P(s S
A
[ =
B
); a proporo
2
corresponde probabi-
lidade condicionada P(s S
B
[ =
A
).

1
= P(s S
A
[ =
B
) (4.8)

2
= P(s S
B
[ =
A
) (4.9)
As propores
1
e
2
tambm vo depender do parmetro p. A proporo
1

directamente proporcional a p: quantos mais jogos iniciais um agente B nunca recusa,
maior a proporo de jogos com uma composio mista de agentes em que todos
os agentes do grupo B no jogam a aco recusa. Por outro lado, a proporo
2

inversamente proporcional a p: quantos mais jogos iniciais um agente B nunca recusa,
menor a proporo de jogos entre agentes do grupo B em que nenhum deles joga
a aco recusa. Porm no temos uma expresso de p que possa ser colocada nas
equaes (4.8) e (4.9).
Como dissemos atrs, podemos efectuar experincias variando o parmetro p, o
conjunto dos tipos (T) e a correspondncia entre elementos do conjunto dos tipos e
o conjunto das estratgias. Esta correspondncia (exemplicada na tabela 4.2) afecta
a probabilidade condicionada envolvendo estratgias e tipos. Como consequncia, a
entropia das estratgias dado o tipo pode ser alta ou baixa: quando baixa, existe uma
boa capacidade de distino das estratgias; quando alta, os agentes no conseguem
identicar com clareza as estratgias dos seus parceiros. A entropia uma medida que
resume as condies em que uma experincia feita.
Numa simulao podemos controlar a distribuio dos tipos de agentes pelas estrat-
gias disponveis. Numa populao sujeita a umalgoritmo evolucionrio, a probabilidade
de obter uma estratgia depende do seu desempenho ao longo das geraes anteriores.
A atribuio dos tipos de agentes que determina se as probabilidades conjuntas P(s, )
so independentes. Convm referir que as probabilidades, na simulao computacional,
so obtidas a partir da proporo de estratgias e tipos numa populao.
Se H(s[) = H(s), ento a informao recolhida por tipo no tem valor prtico pois
o ganho de informao nulo: I(s; ) = H(s) H(s[). No nosso entender, a chamada
cheap talk deve ser caracterizada como uma situao em que no h ganho de informa-
68
o. A cheap talk diz que as mensagens transmitidas durante a fase de comunicao,
com vista a inuenciar a estratgia que os agentes vo utilizar no jogo, no tm poder
vinculativo. No entanto, naquilo que o autor tem conhecimento, a cheap talk nunca foi
apresentada em termos de ganho de informao. Se a comunicao permite que os jo-
gadores se consigam coordenar ou chegar a um acordo, ento h ganho de informao:
os agentes tm uma ideia mais clara sobre qual a(s) estratgia(s) que os seus parceiros
vo utilizar (I(s; ) > 0).
4.4 Comparao com outros trabalhos
A comunicao em jogos um aspecto bastante analisado. Um deles a situao de
cheap talk e outro a inuncia da comunicao na seleco do perl que ptima
de Pareto. Ao contrrio de outros trabalhos (Blume, 1998; Anderlini, 1999; Burton &
Sefton, 2004; Arvan et al., 1999), no focmos as caractersticas que o espao de men-
sagens deve ter para atingir o perl anterior. Podemos resumir os trabalhos anteriores
e alguns dos seus resultados no seguinte facto: quanto maior for o espao de mensa-
gens, maior ser a sua redundncia e, consequentemente, melhor ser a capacidade de
distino dos agentes.
Outra perspectiva que pode ser considerada, a existncia de agentes maliciosos
que utilizam as mensagens usadas por agentes cooperantes e honestos e cujo objectivo
passarem despercebidos e assim aproveitarem-se dos outros agentes. Os agentes coo-
perantes podero ter uma capacidade de usar novas mensagens para se identicarem.
Um cenrio com estas caractersticas pode diminuir a utilidade do passo de identi-
cao e cairmos numa situao de cheap talk (ver subseco 2.1.2). A identicao no
teria qualquer efeito. Este cenrio no foi considerado neste trabalho e est em aberto
como trabalho futuro.
Segundo (Burnham, 2003), quando num jogo existe a hiptese de penalizar ento h
uma diminuio dos comportamentos desonestos. Nesse trabalho, os autores discutem
o efeito de um jogador permanecer ou no annimo no jogo Ditador. Nas experincias
que efectuaram (o ditador v uma foto do receptor, o receptor v uma foto do ditador,
experincia de controlo sem fotos) h um aumento da quantia dada ao receptor quando
existem fotos, isto , quando h identicao.
A variao dos conjuntos S e T vai inuenciar a capacidade dos agentes se distin-
guirem no primeiro passo do Jogo de Recusa. O contedo destes conjuntos pode ser
tal que possvel modelar algumas experincias efectuadas com pessoas postas a jogar
alguns dos jogos descritos na seco 2.3. As experincias, nas quais os jogadores pos-
suem algum conhecimento dos seus parceiros, tm menor entropia. Se a experincia
envolvesse uma populao de agentes sujeita a um processo evolutivo em que a funo
de desempenho seria o resultado do Jogo de Recusa com o jogo em questo, ento
poderamos aplicar as concluses do Jogo de Recusa: o grupo de agentes, com maior
69
ganho em jogos entre si e cuja proporo na populao seja maior que x
0
, eliminaria os
outros agentes ao m de algumas geraes.
A utilizao da entropia, como medida global da populao, reala a capacidade
da comunicao como factor de distino de uma estratgia em face de outra. A co-
municao na TJ analisada muitas vezes pelo seu factor vinculativo. Se a mensagem
transmitida tem pouco factor informativo, ento o agente receptor no ir dar impor-
tncia mensagem. Este o caso da cheap talk referida na seco 2.1.2. Quanto mais
estratgias um jogo tem e se estas estratgias forem equiprovveis, ento maior a
entropia priori. Consequentemente, necessrio mais informao, ou seja, mais ti-
pos para distinguir as diversas estratgias; caso contrrio, as propores
1
e
2
sero
no-nulas.
A utilizao de um conjunto de tipos, T, permite um tratamento sistemtico e con-
trolo de simulaes contrastando com alguns trabalhos na TJ onde so permitidas qual-
quer tipo de mensagens entre as pessoas envolvidas ou onde as pessoas podem observar
as aces feitas pelos seus parceiros em jogos anteriores (Moreno & Wooders, 1998;
Duffy & Feltovich, 2002). A relao entre o tipo de agente, , e a estratgia do agente,
s, no sentido das probabilidades respectivas serem independentes ou no, difere de al-
guns trabalhos onde s analisado o comportamento do agente face informao que
recebe (Anderlini, 1999; Burton & Sefton, 2004). Nestes trabalhos, o agente caracte-
rizado por uma funo que tem como argumento a mensagem recebida do parceiro no
jogo J (s tratam jogos a 2 jogadores) e cujo resultado uma estratgia a utilizar nesse
jogo J .
Ao contrrio de alguns trabalhos onde tambm so considerados jogos que colocam
dilemas aos jogadores (estratgias exploradoras, aces que so referidas como traio)
ns no nos propusemos a analisar em que condies que esses jogos podem ser
jogados cooperativamente pelos jogadores. Em(Watson, 2002) foi analisada uma verso
do IPD com ganhos variveis. A deciso de um jogador cooperar depende do seu tipo.
No foram analisadas as interaces entre tipos diferentes, mais precisamente, entre o
tipo comtendncia para trair e o tipo comtendncia para cooperar no intuito de construir
uma relao a longo prazo com o seu parceiro de jogo.
Alguns trabalhos tratam jogos que envolvem dilemas e onde h risco de explorao
e analisam em que condies que o comportamento no-cooperante surge. Como
exemplos temos (Budescu et al., 1995).
Outra das diferenas do nosso trabalho a informao recolhida pelos agentes que
pode ser comparada crena utilizada em alguns trabalhos (Budescu et al., 1995; Wat-
son, 2002). Esta crena reecte o que um dado agente assume sobre o tipo do seu
parceiro. Na bibliograa consultada, no encontrmos trabalhos que estudassem a in-
formao de um ponto de vista evolucionrio.
Relativamente ao tipo de agentes, alguns trabalhos consideram dois tipos. So utili-
zadas diferentes denominaes para os dois tipos: curto prazo versus longo prazo, baixo
70
risco versus alto risco, traidor versus cooperante. Apesar dos diferentes nomes, h tra-
os comuns como a tendncia para cooperar e para obter maiores ganhos a longo prazo
exibida por um tipo enquanto o outro procura o ganho fcil atravs da explorao ou
traio. Apesar de alguns trabalhos referirem traio, no mencionam a existncia de
um acordo explcito entre os indivduos. H diferenas no que concerne ao conheci-
mento do tipo dos parceiros: os agentes podem ter acesso directo ao tipo do(s) seu(s)
parceiro(s) ou ento ter uma medida de crena sobre qual o tipo.
O Jogo de Recusa foi desenvolvido como um meta-jogo. Pode ser aplicado a qual-
quer jogo J independentemente do nmero de jogadores que este tenha. Nos jogos em
que existe uma combinao de jogadores dos grupos A e B, pelo menos um dos agentes
B tem de recusar jogar o jogo J . Envolve decises de mbito pessoal, ou seja, um agente
recusa ou decide jogar com base em informao recolhida por ele prprio, no sendo
necessrio uma entidade central onde a informao de todos os jogos realizados seria
canalizada. Um agente pode jogar um certo nmero p de jogos com um determinado
tipo de agente antes de decidir se deve ou no passar a recusar jogar com esse tipo de
agente.
No Jogo de Recusa assumimos que um agente s observa os tipos dos seus parceiros
e o ganho que obtm no jogo J . Esta informao utilizada para obter um modelo dos
tipos de agentes com quem um agente interage. Mencionmos que este modelo utili-
zado na deciso de recusar ou jogar o jogo J e que pode ser visto como uma crena que
um agente tem acerca dos seus parceiros. De modo semelhante, a TJ tambm considera
as crenas que os jogadores tm e, geralmente, pressupe duas crenas possveis: ou o
parceiro um traidor ou um cooperante. No Jogo de Recusa no necessrio que a
crena seja discreta, pois um modelo simples, baseado na mdia dos ganhos obtidos por
um agente ao jogar com determinado tipo , permite obter uma crena contnua.
71
Captulo 5
Anlise Experimental
O jogo Give-Take foi apresentado no captulo 3 juntamente com uma anlise terica
da dinmica jogo. No captulo 4 apresentamos as vantagens do Jogo de Recusa em
determinadas condies. Neste captulo vamos descrever a parte experimental envol-
vendo o jogo Give-Take e o Jogo de Recusa. Desde o incio desta tese que foi tomada
a opo de utilizar um Algoritmo Evolucionrio (AE) para analisar o comportamento
das estratgias. Uma das principais razes por esta opo foi o facto do autor estar fa-
miliarizado com estes algoritmos j que estes foram utilizados em trabalhos anteriores.
Outra das razes e que constitui uma das motivaes para o desenvolvimento dos AG foi
a modelao da Evoluo Natural, processo pelo qual as espcies mais aptas sobrevi-
vem. Referimos na seco 2.2.4 alguns trabalhos onde utilizado um AE para analisar
a dinmica populacional.
Visto ter sido utilizado um AE na componente experimental, este captulo comea
com a seco 5.1 onde feita a descrio dos parmetros comuns a todas as experin-
cias. A seco 5.2 apresenta os resultados envolvendo a dinmica do jogo Give-Take
nomeadamente os ciclos tesoura-papel-pedra. A seco 5.3 apresenta os resultados da
aplicao do Jogo de Recusa a um conjunto de jogos entre eles o Give-Take.
5.1 Congurao Geral das Experincias
Os resultados apresentados neste captulo dizem respeito a simulaes computacionais
de uma populao de agentes. Comeamos por descrever a congurao comum a todas
as experincias.
5.1.1 Parmetros e Condies
Uma populao P de agentes sujeita a um processo evolutivo. O desempenho de
um agente determinado pelo ganho obtido num conjunto de partidas de um jogo a n
73
jogadores. Aps todos os agentes terem sido avaliados, so submetidos a um processo
de seleco e de seguida so submetidos a um processo de mutao. Findo este passo,
comea uma nova gerao do processo evolutivo. Para cada conjunto de parmetros
ou condies foram efectuadas N
PC
experincias para obter resultados estatisticamente
representativos.
A descrio anterior uma descrio geral dos parmetros e condies comuns a
todas as experincias. De seguida elaboramos um pouco cada um dos pontos anteriores.
Estrutura da Populao A estrutura da populao determina quais so os vizinhos de
um agente . Seja V

o conjunto dos vizinhos de . A estrutura da populao


importante porque inuencia o clculo do desempenho de um agente, o domnio
do operador de seleco e os potenciais parceiros de um agente. Assim til
denir P

como sendo o conjunto formado pela unio dos conjuntos e V

.
Foram usados dois tipos de estrutura:
bag Os vizinhos de so V

=P. Qualquer agente pode jogar com qual-


quer outro agente.
lattice Os agentes esto dispostos numa grelha toroidal e V

pode ser composto


pela vizinhana De Moore (4 agentes) ou Von Neumann (8 agentes).
Desempenho O clculo do desempenho de um agente envolve jogarem-se N
J
jogos.
Para cada jogo h que escolher n 1 parceiros. Estes so escolhidos a partir do
conjunto P

. Esta escolha feita com reposio. Isto quer dizer que o mesmo
agente pode ser escolhido mais do que uma vez. Recorde-se que o conjunto P

,
inclui o prprio agente pelo que ele pode jogar contra si prprio.
Seleco O operador de seleco utilizado foi torneio de tamanho 2. Este operador
favorece os agentes com maior desempenho mesmo quando existe uma pequena
diferena entre os agentes presentes na populao. O processo de seleco apli-
cado a todos os agentes do seguinte modo: o agente e os seus vizinhos V

so
submetidos ao operador de seleco; o resultado do operador ocupa a posio do
agente na nova populao. Deste modo umagente pode ocupar, na nova popu-
lao, as posies dos seus vizinhos para alm da sua.
P(t +1) / 0
for all P(t) do

1
select(P

2
select(P

)
if f itness(
1
) > f itness(
2
) then
P(t +1) P(t +1)
1

else
P(t +1) P(t +1)
2

74
Mutao A probabilidade de aplicao do operador de mutao de 20%. Esta pro-
babilidade considerada alta quanto temos um problema de optimizao. No
entanto neste trabalho estamos a lidar com interao de agentes e a sua robustez
face a novas estratgias pelo que se torna essencial a criao de novos agentes que
ponham prova a populao na prxima gerao.
Foram feitos testes preliminares, com o jogo Give-Take, para determinar qual a
taxa de mutao que melhor testava a populao corrente. Estes testes usaram
sempre o mesmo nmero de geraes. Se a probabilidade de ocorrer uma mutao
baixa ento h perodos longos em que as estratgias presentes na populao
no variam. Se a probabilidade de ocorrer uma mutao demasiado alta, ento
torna-se difcil observar ciclos tesoura-papel-pedra ao longo das geraes.
Alm de usar uma mutao alta foram feitas experincias sem mutao. A ausn-
cia de mutao est associada a uma populao inicial pr-denida discutida no
ponto Cromossoma.
Cromossoma O cromossoma representa a estratgia que o agente usa no jogo. O cro-
mossoma composto maioritariamente por valores numricos que representam
probabilidades de executar uma aco ou o nmero de iteraes em que um agente
faz sempre uma determinada aco. O operador de mutao adiciona rudo gaus-
siano a cada valor numrico.
Foram feitas experincias em que o cromossoma foi inicializado aleatoriamente.
Noutras a populao inicial era composta por cromossomas com valores pr-
determinados. Com estes valores pretendia-se obter um conjunto de estratgias
cooperantes. A estes dois casos esto associados, respectivamente, mutao dos
cromossomas e ausncia de mutao.
Geraes Nas experincias onde se pretende observar a dinmica do jogo (estratgias
evolucionariamente estveis, ciclos tesoura-papel-pedra) quantas mais geraes
a populao tiver melhor. Se porventura usssemos uma probabilidade de muta-
o baixa, seria necessrio esperar muito tempo at que surgisse uma estratgia
melhor que as correntes. No foram feitos testes para determinar qual o melhor
nmero de geraes que melhor permitia observar a dinmica do jogo.
Em experincias onde no foi usada mutao o objectivo era observar qual a es-
tratgia que ganhava. Em vez de se calcular a diversidade da populao em cada
gerao
1
ou de se vericar se houve alteraes na proporo de estratgias
2
optou-
1
Calcular a diversidade de uma populao requer comparar os gentipos de todos os pares de indiv-
duos e tem uma complexidade temporal O(N
2
A
) em que N
A
o tamanho da populao.
2
Pode acontecer que duas ou mais estratgias formem um ponto xo. Aqui seria necessrio calcular
se no havia utuao da proporo das estratgias.
75
-se por um valor xo para todas as geraes. Este valor mais pequeno que o
anterior.
A tabela 5.1 apresenta os valores dos parmetros e as condies usadas comuns a
todas as experincias.
[P[ tamanho populao 100
probabilidade de ocorrer mutao 20%, 0%
estrutura da populao bag, lattice (vizinhana De Moore)
N
G
nmero de geraes 1000, 100
N
PC
nmero de simulaes 30
Tabela 5.1: Parmetros e condies comuns a todas as experincias.
5.1.2 Algoritmo Evolucionrio
As condies e os parmetros descritos atrs na subseco 5.1.1 fazem parte do Algo-
ritmo Evolucionrio (AE) utilizado para estudar a dinmica da populao. Os passos
do algoritmo so os seguintes: avaliao dos indivduos, seleco da prxima gerao,
aplicao dos operadores evolucionrios. A gura 5.1 apresenta em traos gerais o algo-
ritmo usado. A diferena para um AE clssico est na avaliao que envolve um jogo J
a n-jogadores: o ganho de cada agente no jogo contribui para o seu desempenho. A
avaliao de um indivduo composta pelos seguintes passos:
Seleco de um conjunto de n 1 parceiros. Esta seleco feita a partir do
conjunto V

;
Jogar o jogo J ;
Adicionar pontuao de cada agente o seu ganho no jogo.
No incio de cada gerao a pontuao de todos os agentes inicializada a zero. No
nal de todos os jogos, a pontuao usada pelo operador de seleco para construir a
prxima gerao.
Numa gerao efectuam-se o seguinte nmero de jogos:
[P[ N
J
O nmero total de jogadores que jogaram :
[P[ N
J
n
76
para cada agente
seleco n1 parceiros de V

?
jogar jogo J
?
actualizar desempenho jogadores
?
?
seleco dos agentes
?
mutao dos agentes
r
e
p
e
t
i
r
N
J
v
e
z
e
s
Figura 5.1: Algoritmo evolucionrio utilizado nas simulaes
Um agente
i
participa directamente em N
J
jogos. Cada um dos seus vizinhos, V

i
,
participa directamente tambm em N
j
jogos, logo o agente
i
pode participar tambm
no seguinte nmero de jogos:
[V

i
[N
J
Como a escolha de parceiros feita com reposio, o agente
i
pode ser escolhido por
cada um dos seus vizinhos o seguinte nmero de vezes:
[V

i
[(n1)N
J
O factor [V

i
[ representa o nmero total de vizinhos, o factor n1 representa o nmero
de parceiros que um vizinho de
i
tem que escolher e o factor N
J
representa o nmero
de jogos que constituem o clculo do desempenho de um vizinho de
i
.
A probabilidade do agente
i
ser escolhido como jogador pelo seu vizinho
j
:
P(
i
ser jogador com
j
)
1
[V

j
[ +1
77
Recorde-se que o agente
j
quando escolhe parceiros, estes so seleccionados a partir
do conjunto P

j
que composto pelo prprio agente
j
(termo 1) e pelos seus vizinhos
(termo V

j
).
Tendo em conta o facto de que a escolha feita com reposio, a probabilidade do
agente
i
participar em pelo menos um jogo, de avaliao do desempenho de um seu
vizinho j, :
P(
i
entrar num jogo de
j
) 1
_
1
1
[V

j
[ +1
_
n1
= 1
_
[V

j
[
[V

j
[ +1
_
n1
Podemos apresentar agora o nmero mdio de jogos em que um agente participa
como jogador. Juntando as expresses anteriores, obtemos:
numJogos N
J
+[V

i
[N
J
_
1
_
[V

j
[
[V

j
[ +1
_
n1
_
Para as estruturas de populao consideradas o conjunto dos vizinhos de qualquer
agente
i
tem sempre o mesmo nmero de elementos,

i
,
j
P
[V

i
[ =[V

j
[. Podemos
ento simplicar a expresso anterior, omitindo o ndice, para obtermos:
numJogos N
J
_
[V[ +1
_
_
1
_
[V[
[V[ +1
_
n1
_
(5.1)
Este valor depende da estrutura da populao. Um conjunto de vizinhos maior no
implica um maior nmero de jogos. No limite [V[ o nmero mdio de jogos tende
para N
J
n.
Se os agentes no-cooperantes se encontram em nmero reduzido, o aumento do
nmero de vizinhos s os favorece, j que a probabilidade de voltar a encontrar o mesmo
agente baixa. Um conjunto de vizinhos maior aumenta a visibilidade de um agente.
No entanto menos provvel que um agente seja escolhido quando h mais vizinhos
por onde escolher.
No trabalho de (Sigmund et al., 2001) so analisados vrios tipos de vizinhana no
jogo IPD utilizando unicamente duas estratgias numa grelha toroidal. Quando a vizi-
nhana um conjunto pequeno, baseado na denio de vizinhana de Von Neumann, a
percentagem de cooperantes maior.
5.1.3 Comentrios
A avaliao das estratgias foi sujeita a um AE. O algoritmo gentico desenvolvido
por (Holland, 1975) tinha como principal objectivo a modelao dos processos evolu-
tivos naturais como vimos na seco 2.2.4. A evoluo de uma populao de agentes
78
que interage atravs de um jogo pode ser modelada atravs de um AE. Assim utiliz-
mos um AE com caractersticas dos AG e das EE. Tal como nos AG, no passo relativo
seleco foi utilizado o torneio de tamanho 2. Como as estratgias para jogar o jogo
so compostas por parmetros exclusivamente numricos, o passo relativo mutao
consistia em adio de rudo gaussiano.
Como se pretende avaliar o desempenho das estratgias e determinar se existe al-
guma estratgia dominante no h nenhum critrio de paragem do algoritmo. Poder-
-se-ia vericar se existiam alguns ciclos tesoura-papel-pedra, ou seja, se a mesma es-
tratgia surgia de n em n geraes. Como esta vericao requer no pior caso que se
guardem as populaes de todas as geraes anteriores, optou-se por xar um nmero
de geraes no muito baixo, com uma probabilidade de mutao relativamente alta
para garantir o surgimento de novas estratgias. Recorreu-se anlise das mdias dos
parmetros das estratgias ao longo das geraes de cada simulao.
O operador com maior destaque nos AG o sobre-cruzamento pois permite a com-
binao de vrios blocos (Goldberg, 1989). Devido aos objectivos pretendidos com a
utilizao do AE, demos mais importncia ao operador de mutao pelo que o operador
de sobre-cruzamento no fez parte do padro de parmetros e condies. O opera-
dor de mutao introduz novo material gentico na populao. O operador de sobre-
cruzamento faz apenas a recombinao de material j existente na populao. Uma das
aplicaes mais frequentes dos AG a optimizao onde em cada gerao necess-
rio melhorar os indivduos existentes, utilizando para tal, os melhores blocos que estes
possuem, recombinando-os e recorrendo mutao para procurar os blocos que ainda
no correspondem ao ptimo. Como ns pretendemos analisar a dinmica da populao
face a novas estratgias, ou seja, se a populao estvel ou no, com o operador de
mutao que conseguimos vericar a estabilidade da populao.
Note-se que s recentemente (Misevic et al., 2006; Misevic et al., 2004) foi inves-
tigado o efeito da reproduo sexuada (utilizao do operador de sobre-cruzamento) na
taxa de sobrevivncia dos agentes utilizando para tal o Avida, um ecossistema articial
utilizado em diversos estudos sobre adaptao e evoluo. Nestes trabalhos, no havia
interaco directa entre os agentes, j que estes podiam obter mais recursos articiais
atravs da realizao de certas tarefas. Na linguagem da TJ os jogos que os agentes
jogavam eram de 1-jogador, que diferem dos jogos utilizados nesta tese.
Uma reexo aps a realizao das experincias, motivada pela dinmica que foi
possvel observar, sugeriu que no se usasse operadores de mutao nem de sobre-
cruzamento, mas que uma percentagem da populao na nova gerao fosse constituda
por indivduos cujos parmetros seriam calculados aleatoriamente. Como os cromos-
somas so constitudos maioritariamente por valores reais, o operador de mutao uti-
lizado adiciona rudo gaussiano. Quer dizer que o indivduo, que resulta da mutao,
em 95% dos casos semelhante (dentro de 2 desvios padres da varivel normal) ao
indivduo que mutado.
79
5.2 Simulaes Give-Take
Nesta seco, vamos falar unicamente dos resultados envolvendo a dinmica inerente
ao jogo Give-Take. Na seco 3.2.2 foram analisadas os equilbrios relativos a pares
de estratgias, enquanto nesta apresentamos resultados experimentais envolvendo uma
populao de agentes.
Comeamos por descrever os parmetros e condies especcos ao jogo Give-Take
na subseco 5.2.1, fazemos a descrio dos agentes e das estratgias na subseco 5.2.2
e terminamos na subseco 5.2.3 com a anlise aos resultados obtidos.
5.2.1 Congurao das Experincias
Foram explorados diversos cenrios variando os valores dos parmetros das matrizes
(equaes (3.1) e (3.2)). Estes parmetros inuenciam a dinmica da interao entre as
estratgias como foi visto na seco 3.2.2.
Para alm destes parmetros, foi analisado o impacto do operador de sobre-cruza-
mento na dinmica do jogo, tendo sido analisados dois tipos de operadores:
1 Operador aplicado a quaisquer duas estratgias.
2 Operador aplicado a duas estratgias que diram no mximo de um valor . Esta
diferena calculada quer para o gentipo quer para o fentipo. A seco 5.2.2
esclarece o signicado do gentipo e do fentipo para um agente do jogo Give-
Take.
Na anlise referida nesta seco, para cada conjunto especco de parmetros e con-
dies s foram feitas N
PC
= 10 simulaes.
A durao de um jogo entre duas estratgias variava uniformemente entre 100 e 130
iteraes. Idealmente, o nmero de iteraes do jogo Give-Take deveria ser o mnimo
mltiplo comum de todas os valores possveis de t
g
e t
t
. Estes parmetros so os mesmos
que foram utilizados no captulo 3 na anlise das estratgias no jogo Give-Take
3
. Se o
nmero de iteraes fosse o m.m.c ento a expresso do ganho mdio seria a correcta e
no aproximada, tal como referido no apndice A.
A tabela 5.2 descreve os parmetros e as condies utilizados no jogo Give-Take.
5.2.2 Representao dos Agentes
Por representao do agente entendemos o gentipo do agente. Ogentipo de umagente
composto pelo seu cromossoma. Este o elemento manipulado pelos operadores
3
Relembrando, o parmetro t
g
refere-se ao nmero de iteraes que um agente tem o recurso antes de
o dar, o parmetro t
t
refere-se ao nmero de iteraes que um agente no tem o recurso antes de o tirar.
80
p
r
posse do recurso 5, 10, 15
b
g
bnus da aco give 0, 2, 4
c
pt
custo da aco take 0, 5, 10, 15
c
st
efeito no sujeito da aco take 5, 10, 15, 20
operador de sobre-cruzamento no-usado, simples, similar
N
PC
nmero de simulaes 10
durao de um jogo U(100, 130)
Tabela 5.2: Parmetros e condies utilizados no jogo Give-Take: valores dos parme-
tros do jogo e operadores de sobre-cruzamento. Nesta tabela h 33443 = 432
conjuntos possveis de parmetros e condies.
do AE. composto por uma estratgia s que indica, por exemplo, quantas iteraes ca
com o recurso antes de o dar. O fentipo do agente representa o comportamento que
este tem durante um jogo Give-Take. Como foi discutido na subseco 3.2.1, o fentipo
composto pelo nmero mdio de iteraes que um agente tem o recurso e o nmero
mdio de iteraes que um agente no tem o recurso. O fentipo de uma estratgia pode
ser representado por um tuplo binrio: (F
g
, F
t
). O primeiro elemento refere-se aco
give e o segundo aco take.
Alguns gentipos (estratgias) podem ser semelhantes ao fentipos. No entanto h
alguns gentipos, como por exemplo um autmato, que diferente do fentipo. J uma
estratgia determinstica (uma degenerao da estratgia probabilstica) igual ao fen-
tipo. As experincias referidas nesta seco utilizaram gentipos muito semelhantes ao
fentipo, j que fcil calcular o fentipo a partir do gentipo.
Estratgia Probabilstica
A primeira estratgia desenvolvida probabilstica: h uma probabilidade do agente
dar o recurso e de tirar o recurso. Esta estratgia composta por 6 parmetros, 3 para a
aco give e 3 para a aco take. Descrevemos a seguir um conjunto de 3 parmetros,
t
r
, p
g
, t
g
para a aco give e t
r
, p
t
, t
t
para a aco take:
O primeiro parmetro indica o nmero de iteraes em que o agente no faz nada.
Se tem o recurso, joga a aco none
r
durante t
r
iteraes; se no tem, joga a
aco none
r
durante t
r
.
Findo o nmero de iteraes anterior, o agente age com uma probabilidade deter-
minada pelo segundo parmetro.
O terceiro parmetro indica o nmero limite de iteraes para o agente agir relati-
vamente ao recurso. Se tem o recurso aps t
g
iteraes, joga a aco give; se no
81
tem o recurso aps t
t
iteraes, joga a aco take.
De notar que o nmero de iteraes contado a partir da ltima troca de posse do
recurso. A tabela 5.3 mostra alguns exemplos para diferentes estratgias.
agente sequncia de aces ganho t
r
, p
g
A .G...G...G...G...G...G.. 12p
r
2, 1.0
B ...G...G...G...G...G...G 12p
r
2, 1.0
A ..G.....G.....G.....G... 12p
r
3, 1.0
B .....G.....G.....G.....G 12p
r
3, 1.0
A .G....G....G....G....G.. 9p
r
2, 1.0
B ....G....G....G....G.... 15p
r
3, 1.0
Tabela 5.3: Exemplos de estratgias e respectiva sequncia de aces.
Relativamente ao operador mutao, este foi aplicado com uma probabilidade de
20%. Cada um dos parmetros do conjunto t
r
, t
g
, t
r
, t
t
foi guardado numa varivel
de tipo inteiro (no algoritmo da simulao computacional), logo a mutao consistia
em somar ou subtrair uma varivel binomial
4
com probabilidade de sucesso de 30%.
O valor nal era truncado para car no intervalo vlido. Cada um dos parmetros do
conjunto p
g
, p
t
foi guardado numa varivel de tipo real, logo a mutao consistia na
soma de uma varivel normal de mdia 10 e desvio padro 10. Aqui tambm o valor
nal era truncado mas para car no intervalo [0; 1].
Foi utilizada uma variante desta estratgia nas simulaes cujos resultados so apre-
sentados mais adiante nesta seco. Nesta variante, a estratgia probabilstica no tinha
os parmetros t
t
e t
g
. Temporalmente, esta variante foi utilizada nas primeiras anlises
experimentais do jogo Give-Take.
A incluso dos parmetros t
t
e t
g
foi efectuada mais tarde, pois tornou-se necessrio
a anlise de estratgias que dessem e tirassem o recurso ndo um nmero de iteraes
conhecido. Por outro lado, torna-se possvel obter uma estratgia determinstica, por
degenerao dos parmetros p
g
= 0 e p
t
= 0. Uma vantagem das estratgias determi-
nsticas a velocidade da simulao. No algoritmo que implementa o jogo Give-Take,
o clculo dos ganhos de duas estratgias determinsticas imediato, ao passo que um
jogo entre duas estratgias probabilsticas, torna-se necessrio simular as iteraes do
jogo Give-Take
5
para calcular os seus ganhos. A diminuio do tempo de computa-
o da ordem do nmero mdio de iteraes. Como este nmero da ordem da uma
centena, o tempo de execuo de uma simulao com uma populao de estratgias de-
4
Note-se que a palavra varivel utilizada ou para referir uma varivel num programa ou para referir
uma distribuio de probabilidade.
5
Como est referido na tabela 5.2 um jogo tem entre 100 e 130 iteraes.
82
terminsticas 100 vezes menor que uma simulao com uma populao de estratgias
probabilsticas.
A estratgia probabilstica permite ter uma outra variante em que os parmetros t
t
e t
g
tm o valor
6
e a respectiva operao de mutao est desactivada. Esta variante
permite ter estratgias que nunca tiram o recurso (p
t
= 0) ou nunca o do (p
g
= 0).
A tabela 5.4 resume os parmetros e condies respeitantes estratgia probabils-
tica.
t
r
, t
r
parmetros estratgia 1, 2, . . . 16
t
g
, t
t
parmetros estratgia 1, 2, . . . 16
p
g
, p
t
parmetros estratgia [0; 1]
probabilidade mutao 20%
mutao probabilidade N(0, 0.1)
mutao iterao B(0.3)
Tabela 5.4: Parmetros e condies respeitantes estratgia probabilstica: espao de
valores do gentipo e caractersticas do operador de mutao. Em algumas experincias
no foram utilizados os parmetros t
g
e t
t
, da a referncia a .
Modelo de Acordo
Foi desenvolvida uma estratgia que implementava um modelo de acordo baseado em
probabilidades e com o objectivo de ser aplicado a qualquer jogo J . O modelo com-
posto por cinco parmetros:
s
A
A estratgia que o agente prope como acordo, neste caso, o nmero de iteraes
com que o agente ca com o recurso antes de o dar ao seu parceiro.
p
A
A probabilidade de fazer um acordo com o parceiro.
p
Q
A probabilidade de quebrar um acordo.
s
N
Estratgia utilizada pelo agente quando no chega a um acordo com o(s) seu(s) par-
ceiro(s) no jogo.
s
Q
Estratgia utilizada pelo agente quando decide quebrar o acordo.
Com esta abordagem, simplicamos o processo de estabelecimento de um acordo a
um processo estocstico. So os parmetros p
A
e p
Q
que inuenciam se um acordo
6
O maior inteiro representvel pela simulao.
83
estabelecido e se ele quebrado ou no. Por outro lado, as estratgias s
A
, s
N
e s
Q
dependem do jogo J que os agentes esto a jogar. No presente caso, s
A
representa o
nmero de iteraes que os agentes tm o recurso antes de o darem ao parceiro. Para os
parmetros s
N
e s
Q
foram utilizadas as estratgias probabilsticas do Give-Take.
Este modelo de acordo permite ser aplicado a outros jogos e realmente foi utilizado
noutros jogos cujos resultados so apresentados neste captulo. O protocolo seguido
pelos agentes divide-se em duas fases. Na primeira, todos os agentes decidem com
probabilidade p
A
se fazem um acordo ou no. A segunda fase consiste na escolha da
estratgia que os agentes vo utilizar no jogo. Esta depende se houve acordo ou no, e
havendo acordo, cada agente pode unilateralmente quebr-lo. O algoritmo 5.1 apresenta
os algoritmos seguidos nas duas fases do protocolo.
Fase 1 2 agentes
if random(p
1
A
) random(p
2
A
) then
acordo true
else
acordo false
Fase 2 agente i
if acordo then
if random(p
i
Q
) then
s s
i
Q
else
s s
i
A
else
s s
i
N
Algoritmo 5.1: Protocolo seguido pelos agentes com o modelo de acordo. Este est
ilustrado para um jogo com 2 agentes. O Protocolo est dividido em duas fases.
Relativamente ao operador mutao, este foi aplicado com uma probabilidade de
20%. Como o parmetro s
A
representa um nmero de iteraes e no algoritmo foi
utilizada uma varivel do tipo inteiro, mais uma vez, a mutao consistia na soma ou
subtraco de uma varivel binomial com probabilidade de sucesso de 30%. Cada um
dos parmetros p
A
e p
Q
foi representado no algoritmo atravs de uma varivel do tipo
real, e tal como no caso anterior, a mutao consistia na soma de uma varivel normal
com mdia 0 e desvio padro 10. s estratgias s
N
e s
Q
era aplicado o operador de
mutao respectivo referido na descrio das estratgias probabilsticas.
De notar que o protocolo no faz aluso a quaisquer jogos anteriores. Nomeada-
mente, no verica se um acordo anterior foi quebrado. Este facto importante para os
resultados que se obtiveram com esta estratgia.
A tabela 5.5 apresenta os valores dos parmetros relativos ao modelo de acordo
aplicado ao jogo Give-Take. Omitimos os parmetros s
N
e s
Q
pois os valores e condies
afectos a eles esto presentes na tabela 5.4.
84
s
A
valores possveis 1, 2, . . . 16
p
A
, p
Q
valores possveis [0; 1]
probabilidade operador de mutao 20%
mutao probabilidade N(0, 0.1)
mutao iterao B(0.3)
Tabela 5.5: Parmetros e condies afectos estratgia baseada em acordos: espao de
valores do gentipo e caractersticas do operador de mutao.
Populao inicial
Foram feitas experincias em que a populao inicial era composta por agentes que
utilizavam ou a estratgia probabilstica ou a estratgia baseada em acordos. Os valo-
res iniciais dos parmetros destas estratgias eram calculados a partir de uma varivel
com distribuio uniforme. Quando o parmetro dizia respeito a uma probabilidade, era
utilizada a distribuio de nmeros reais U(0, 1). Quando era relativo ao nmero de ite-
raes que eram necessrias passar para efectuar uma aco, era utilizada a distribuio
de nmeros inteiros U(1, 16). No esquecer que uns eram representados no programa
em variveis do tipo real e outros do tipo inteiro.
Outras Estratgias
Para alm da estratgia probabilstica, foi considera uma estratgia baseada num aut-
mato nito. Esta estratgia no foi utilizada em nenhuma anlise da dinmica do jogo
Give-Take, apesar de ter sido implementada em programa e terem sido feitas poucas
simulaes.
Nessas simulaes, o autmato era o seguinte: cada estado indica qual a aco que
o agente deve fazer quer quando tem o recurso quer quando no o tem; as transies
entre estados dependem da aco do oponente. Foi considerado um autmato em que
cada estado continha uma estratgia probabilstica mas que nunca foi implementada.
Uma das razes por nos termos limitado estratgia probabilstica a sua simpli-
cidade. Com efeito, da observao dos seus parmetros temos uma percepo de qual
o seu comportamento no jogo. Com um autmato, essa percepo (que aces faz, se
pende mais para a aco give se para a aco take) j no to directa especialmente
se o autmato for no-determinstico. Um dos dados que recolhido por gerao, em
cada simulao, a mdia dos parmetros do fentipo (F
g
, F
t
). Para calcularmos estes
valores para um autmato teramos de saber qual o seu comportamento em todas as
situaes possveis.
A utilizao de um autmato permite ter memria. Esta soluo diferente da uti-
lizada em trabalhos sobre o IPD onde utilizada memria (Lindgren & Nordahl, 1994).
85
Neste trabalho, a memria implementada atravs de um tabela indexada pelas ltimas
M jogadas, em que M representa o tamanho da memria de um agente, ou o nmero de
jogadas que ele capaz de se lembrar.
Como um autmato nito permite ter uma estratgia mais complexa e com um com-
portamento mais rico que a estratgia probabilstica, a sua utilizao no jogo Give-Take
poder car para trabalho futuro.
5.2.3 Anlise dos Resultados
No captulo 3 foi analisado o impacto dos parmetros do jogo Give-Take (p
r
, b
g
, c
pt
e
c
st
). Na anlise destes resultados, resolvemos concentrar-nos nos outros parmetros, ou
seja, operador de seleco, estrutura da populao, utilizao do modelo de acordos e
operador de sobrecruzamento. Assim, as simulaes foram agrupadas em 24 conjuntos
cada um contendo 1440 simulaes
7
. A tabela 5.6 apresenta os valores dos parmetros
cujo efeito foi analisado.
operador seleco torneio, roleta
estratgias na populao probabilstica, baseada em acordos
operador sobre-cruzamento no-usado, simples, similar
estrutura da populao lattice, bag
Tabela 5.6: Parmetros de cada conjunto de simulaes do Give-Take
Uma das medidas registadas em cada simulao foi a percentagem das aces efec-
tuadas nos vrios jogos. Para podermos analisar e comparar os 24 conjuntos resultantes,
calculamos o histograma da percentagem da aco give. A gura 5.2 apresenta os dois
padres de histogramas obtidos no total dos 24 conjuntos. O padro 1 apresentado na
gura 5.2(a) est associado ao operador de seleco por roleta, enquanto o padro 2
exposto na gura 5.2(b) est ligado ao operador de seleco por torneio. Existe uma
excepo ao padro 2 quando utilizado o operador de sobrecruzamento similar.
A diferena que existe nos resultados entre os operadores de seleco utilizados,
deve-se maior presso selectiva do operador de torneio. Com efeito, com o opera-
dor roleta h maior disperso das estratgias pelo espao de estratgias, apesar de ser
pouco expressiva. O histograma apresentado na gura 5.2(a) mostra que h algumas
simulaes onde a percentagem da aco give varia entre 5% e 50%. Por outro lado,
o histograma apresentado na gura 5.2(b) apresenta uma concentrao de simulaes
volta da abcissa 7%.
7
Este nmero o resultado da expresso 334410. Observando a tabela 5.2 existem, respec-
tivamente, 3, 3, 4 e 4 valores possveis para, respectivamente, os parmetros p
r
, b
g
, c
pt
e c
st
.
86
0
100
200
300
400
500
0 5 10 15 20 25 30 35 40 45 50
Percentagem aco give
roulettewithagreesimilarlattice
(a) Padro 1, obtido a partir do conjunto de pa-
rmetros roleta, baseado em acordos, similar e
lattice.
0
100
200
300
400
500
0 5 10 15 20 25 30 35 40 45 50
Percentagem aco give
tournamentwithoutagreenobag
(b) Padro 2, obtido a partir do conjunto de
parmetros torneio, probabilstica, no-usado e
bag.
Figura 5.2: Estes histogramas mostram das aces efectuadas pelos agentes, quantas
(em percentagem) que so a aco give. Para os 24 conjuntos de parmetros, h dois
padres de histogramas.
Para alm de termos registado a percentagem de aces efectuadas em cada simu-
lao, registmos tambm por simulao, a mdia dos fentipos, ou seja, o compor-
tamento das estratgias nos vrios jogos (como dissemos no incio da seco 5.2.2).
Para resumirmos os 24 conjuntos de simulaes optmos, mais uma vez, por apresentar
histogramas.
Se observarmos os histogramas dos parmetros do fentipo (guras 5.3), existem
tambm dois padres. Quando utilizado o operador de torneio, na maior parte das si-
mulaes as estratgias do o recurso ao m de 10 iteraes com o recurso e tiram-no ao
mde 10 iteraes sema sua posse. Como este operador provoca mais presso selectiva,
as estratgias melhores tm mais hipteses de passar gerao seguinte. Poder-se-ia su-
por que a populao tendesse para o ponto xo identicado no captulo 3 mas tal no
acontece.
Com o operador de roleta h um maior nmero de simulaes onde as estratgias
tiramo recurso ao mde 2 iteraes semele. No entanto existe uma grande variedade no
que toca ao parmetro F
g
do fentipo. Com efeito, o operador de roleta coloca menos
presso evolutiva nos indivduos, pelo que indivduos com desempenhos semelhantes
tm mais hipteses de passar para a prxima gerao.
Outra razo para estes resultados pode derivar do operador de mutao utilizado.
Quando nos jogos, os agentes tiram o recurso em vez de o darem, os parmetros respon-
sveis por F
g
podem utuar, pois no h tempo para F
g
se expressar. Para que os agentes
dem o recurso, necessrio que F
g
< F
t
, ou seja, que os parmetros correspondentes
p
g
e t
r
sejam, respectivamente, alto e pequeno. Devido utuao de p
g
e t
r
e como em
95% dos casos, o resultado da mutao de um parmetro difere de 2 desvios padres,
o salto para F
g
< F
t
teria que ocorrer numa gama pequena de valores de p
g
e t
r
, mas
devido utuao, o salto no ocorre.
87
0
100
200
300
400
500
600
0 2 4 6 8 1012141618202224262830
Tempo mdio da aco take
tournamentwithagreesimplelattice
(a) Padro 1 mdia do parmetro F
t
. Este
histograma foi obtido a partir do conjunto de
parmetros torneio, baseado em acordos, sim-
ples e lattice.
0
100
200
300
400
500
600
0 2 4 6 8 1012141618202224262830
Tempo mdio da aco give
tournamentwithagreenobag
(b) Padro 2 mdia do parmetro F
g
. Este
histograma foi obtido a partir do conjunto de
parmetros torneio, baseado em acordos, no-
usado e bag.
0
100
200
300
400
500
600
0 2 4 6 8 1012141618202224262830
Tempo mdio da aco take
roulettewithoutagreenolattice
(c) Padro 3 mdia do parmetro F
t
. Este
histograma foi obtido a partir do conjunto de
parmetros roleta, probabilstica, no-usado e
lattice.
0
100
200
300
400
500
600
0 2 4 6 8 1012141618202224262830
Tempo mdio da aco give
roulettewithagreenolattice
(d) Padro 4 mdia do parmetro F
g
. Este
histograma foi obtido a partir do conjunto de
parmetros roleta, baseado em acordos, no-
usado e lattice.
Figura 5.3: Histograma da mdia dos parmetros F
t
e F
g
do fentipo das estratgias do
jogo Give-Take, ao longo das geraes de uma simulao.
Os histogramas anteriores so um resumo das vrias simulaes, mas no permitem
observar a dinmica evolucionria tais como ciclos tesoura-papel-pedra. No entanto, a
anlise da dinmica evolucionria requer a observao de 34560 simulaes. Recorde-
se que por dinmica evolucionria entendemos a mdia das estratgias presentes na
populao ao longo das vrias geraes.
Optmos por mostrar na gura 5.4 alguns exemplos. Os grcos contm a mdia
dos parmetros da estratgia probabilstica por gerao. Sendo assim, cada grco tem4
linhas de acordo com a seguinte chave: parmetro t
r
linha azul; parmetro t
r
linha azul
clara; parmetro p
g
linha vermelha; parmetro p
t
linha verde. Descrevemos a seguir
alguns dos grcos:
Na maior parte das simulaes, a mdia das estratgias no constante variando
entre diversas combinaes dos 4 parmetros. H perodos (de geraes) onde o
parmetro t
r
menor que o parmetro t
r
mas o parmetro p
g
(a probabilidade de
dar o recurso) baixo, o que no garante que as estratgias dem o recurso. Se o
88
0
0.2
0.4
0.6
0.8
1
0 200 400 600 800 1000
16
13
10
7
4
1
p
r
o
b
a
b
i
l
i
d
a
d
e

a
c

o
t
e
m
p
o

a
c

o
gerao
Estratgia Mdia
(a) tournament-withagree-similar-lattice w
g
= 5,
b
g
= c
pt
= 0, c
st
= 10
0
0.2
0.4
0.6
0.8
1
0 200 400 600 800 1000
16
13
10
7
4
1
p
r
o
b
a
b
i
l
i
d
a
d
e

a
c

o
t
e
m
p
o

a
c

o
gerao
Estratgia Mdia
(b) tournament-withagree-similar-bag p
r
= 15,
b
g
= 0, c
pt
= 10, c
st
= 15
0
0.2
0.4
0.6
0.8
1
0 200 400 600 800 1000
16
13
10
7
4
1
p
r
o
b
a
b
i
l
i
d
a
d
e

a
c

o
t
e
m
p
o

a
c

o
gerao
Estratgia Mdia
(c) tournament-withagree-similar-bag p
r
= 15,
b
g
= 4, c
pt
= 0, c
st
= 5
0
0.2
0.4
0.6
0.8
1
0 200 400 600 800 1000
16
13
10
7
4
1
p
r
o
b
a
b
i
l
i
d
a
d
e

a
c

o
t
e
m
p
o

a
c

o
gerao
Estratgia Mdia
(d) roulette-withagree-no-lattice p
r
= 10, b
g
= 4,
c
pt
= 5, c
st
= 15
Figura 5.4: Exemplos da dinmica evolucionria no jogo Give-Take. Legenda: t
r
linha
azul; t
r
linha azul clara; p
g
linha vermelha; p
t
linha verde.
parmetro p
t
for alto, ento mais provvel que seja o parceiro a tirar o recurso
do que a prpria estratgia a d-lo. Na gura 5.4(a) podemos observar uma destas
simulaes.
H simulaes, de que o grco 5.4(b) uma amostra, onde predominam as es-
tratgias que tiram o recurso ao m de uma iterao sem o mesmo. O parmetro
p
g
baixo e o parmetro t
r
alto. A probabilidade de tirar o recurso alta.
Existem 3450 simulaes com este tipo de dinmica. Uma simulao era clas-
sicada segundo este padro quando, em pelo menos 80% das geraes se ve-
ricavam as seguintes condies: t
r
> 7 t
r
< 3. Esta dinmica foi observada
maioritariamente quando se utilizava o operador de roleta: o nmero de ocor-
rncias proporcional aos parmetros w
g
e c
pt
mas inversamente proporcional
aos parmetros p
r
e c
st
. Com o operador de torneio no havia nenhuma ocorrn-
cia, excepto quando era utilizado o operador de sobre-cruzamento similar com a
89
estrutura de populao bag.
Quando a populao composta por este tipo de estratgias, o parmetro t
r
no
sofre alteraes at ao m da simulao (mantm-se alto), mesmo nas simulaes
onde b
g
> 0 pois a estratgia t
r
= t
r
= p
g
= p
t
= 1 melhor (tem vantagem por
causa do bnus da aco give). As estratgias cujo comportamento, ou fentipo,
seja caracterizado por F
t
= 1 e F
g
> 1, esto associadas aos gentipos cujos par-
metros so t
r
= 1, p
t
alto, t
r
> 1 e p
g
qualquer. Quer dizer que as oscilaes no
parmetro p
g
no inuenciam o fentipo das estratgias.
Convm recordar a gura 3.3(a) na pgina 44. O grco do ganho u
2
(s
1
, s
2
) com
o parmetro t
1
t
(de s
1
) bastante menor que o parmetro t
1
g
, praticamente teria uma
zona relativa s letras A, B e C bastante reduzida. No caso em que t
1
t
= 1, estas
3 zonas desaparecem. na zona relativa letra A (correspondente s estratgias
que do o recurso ao invs de o tirarem) que encontramos as estratgias com
melhor ganho. Porm, para surgir uma estratgia desta zona, seria necessrio
que o operador de mutao, que utiliza soma de rudo gaussiano, produzisse uma
estratgia pouco provvel.
Existem ainda simulaes em que o tempo que a estratgia tem o recurso e no o
tem 1 (linhas azul e azul claro nos grcos a que correspondem os parmetros
t
r
e t
r
). As probabilidades de efectuar as aces so altas. Quando a populao
composta por estratgias deste gnero, geralmente mantm-se neste regime du-
rante o resto da simulao. A gura 5.4(c) apresenta uma simulao onde a partir
da gerao 500, a populao no sofreu alteraes de realce. Relembre-se que
tal como dissemos na seco 3.3 na pgina 49 a estratgia s

= (1, 2) a mais
prxima de ser uma Estratgia Evolucionariamente Estvel (EEE).
Em algumas simulaes, o parmetro t
r
menor que o parmetro t
r
diferindo de
um valor. Por vezes o parmetro t
r
sobe durante algumas geraes. Findo esse
perodo de crescimento, o parmetro t
r
toma um valor prximo de 1 durante uma
ou duas geraes e depois o parmetro t
r
volta a ser menor que o parmetro t
r
.
Durante todas as geraes os parmetros p
g
e p
t
mantm-se relativamente altos.
A gura 5.4(d) um exemplo desta dinmica.
Dos parmetros considerados na anlise do jogo Give-Take, s o operador de selec-
o provocou resultados diferentes (tirando a excepo do operador de sobrecruzamento
similar). Nenhum valor dos outros parmetros provocou diferenas nos resultados das
simulaes (incluindo o aumento das estratgias cooperantes). Nem a utilizao do
modelo de acordo fez aumentar o nmero de estratgias cooperantes na populao.
Foi aps a realizao destas simulaes que se iniciou o trabalho no Jogo de Re-
cusa. Como um agente com a estratgia modelo de acordo no utilizava informao
90
sobre acordos posteriores, decidimos procurar um mecanismo que servisse para punir
os agentes que quebrassem acordos e que, de um modo geral, no fossem cooperantes.
Apesar do operador de seleco por torneio marcar a diferena nos resultados, no
explormos outros operadores evolucionrios ou variaes aos operadores evolucion-
rios. No se variou os parmetros relativos mutao (por exemplo probabilidade de
aplicao ou desvio padro). Como dissemos atrs, faz sentido testar um operador de
mutao que introduza uma estratgia aleatria, ao invs da utilizao de soma de rudo
guassiano, para que todas as estratgias tenham a mesma probabilidade de surgirem por
mutao. No entanto, vamos optar por deixar este teste para trabalho futuro.
5.3 Simulaes Jogo de Recusa
O Jogo de Recusa necessita de um jogo que jogado quando nenhum jogador recusa
jogar com os seus potenciais parceiros. Vamos representar nesta seco este jogo por
J
R
. As simulaes de que vamos falar nesta seco visam primeiro analisar o desem-
penho de um grupo de agentes cooperantes face a vrios cenrios de agentes poten-
cialmente exploradores. Em segundo lugar, pretendemos avaliar experimentalmente a
expresso (4.3) que representa a proporo mnima que deve existir numa populao de
um grupo de agentes cooperantes, para que estes, atravs de um AE, sejam os nicos
membros presentes na populao ao m de um certo nmero de geraes.
O desempenho dos agentes cooperantes foi medido atravs da percentagem destes
no nal de cada simulao. Esta medida serve tambm para avaliar experimentalmente
a expresso (4.3). O nmero de geraes foi igual em todas as simulaes, indepen-
dentemente do jogo J
R
utilizado. Como se pretende medir o nmero de cooperantes
presentes na ltima gerao, o AE no tinha o passo mutao, presente na gura 5.1.
Os agentes do Jogo de Recusa necessitam de um modelo de deciso que usado
na primeira fase do jogo. A subseco 5.3.1 apresenta este modelo. Vamos descre-
ver unicamente a componente dos agentes que diz respeito primeira fase. As outras
componentes dependem do jogo J
R
em questo. Na seco 5.3.2 vamos descrever os
jogos J
R
utilizados nas simulaes e apresentar as estratgias utilizadas pelos agentes
cooperantes.
5.3.1 Representao dos Agentes
O componente que diz respeito ao Jogo de Recusa composto por um tipo e um modelo
de deciso de recusa. O tipo comunicado a todos os parceiros na primeira fase do jogo.
91
Tipo do Agente
O tipo do agente, , serve para identicar o agente e a estratgia, s, que utiliza. Numa
simulao computacional temos de denir qual o valor do tuplo (s, ) para cada agente.
Um dos pontos importantes do Jogo de Recusa a capacidade de distino de estrat-
gias que depende da probabilidade condicionada P(s[), medida que pode ser resumida
na entropia de uma estratgia dado um tipo (ver seco 4.3.2). Se esta entropia for 0,
ento h distino perfeita das estratgias. Ora, como foi referido na seco 4.3.2 uma
simulao pode ser construda de modo a que esta entropia seja 0. No ser 0 devido
presena de estratgias estocsticas.
Numa simulao computacional podemos controlar e variar a proporo dos tuplos
(s, ) tal como est presente na tabela 4.2 na pgina 68. A abordagem, que tommos,
consistiu em atribuir a cada estratgia um nmero inteiro nico sempre que possvel.
Seja (s) esse nmero inteiro. O tipo do agente, , calculado segundo a seguinte
frmula:
((s) +U(0, x)) mod [T[ (5.2)
onde U(0, x) representa uma varivel aleatria inteira com distribuio uniforme entre 0
e x e mod representa o resto da diviso inteira. Ao utilizarmos nmeros inteiros (contra-
domnio de e varivel aleatria) e ao variarmos x entre 0 e o nmero mximo de tipos
conseguimos ter com os valores extremos, respectivamente, uma populao onde h
distino perfeita das estratgias ou uma populao onde no possvel distinguir as
estratgias utilizadas pelos agentes.
Como a maior parte das estratgias tm parmetros reais, o nmero total de estra-
tgias diferentes depende da preciso com que os nmeros reais so representados na
simulao. Ora poderia ser necessria uma gama de valores inteiros superior ao total de
valores reais passveis de serem representados. Para contornar este problema, no clculo
de (s) foram feitas parties dos parmetros reais.
Seja por exemplo uma estratgia s composta por um nico parmetro que toma va-
lores do intervalo [0; 1]. Uma partio possvel, podia ser a diviso em 10 intervalos de
igual dimenso. Assim, para efeitos do clculo de (s) existem unicamente 10 estrat-
gias, logo, o domnio de (s) o conjunto de nmeros inteiros de 1 a 10.
Na descrio das estratgias utilizadas em cada jogo so descritas as parties efec-
tuadas.
Se o valor de x pode variar entre 0 e [T[ falta referir a dimenso deste ltimo con-
junto. O nmero de jogos que um agente faz e o nmero potencial de agentes diferentes
que um agente pode ter como parceiros no justica um elevado nmero de tipos. Dito
de modo mais preciso, o tamanho mximo do conjunto T deve ser igual ao tamanho
do conjunto V. No caso da estrutura de populao lattice, o nmero de tipos baixo
comparativamente ao tamanho da populao (4 versus 100 pela tabela 5.1). Por outro
lado, quando o fentipo envolve parmetros reais, qualquer partio no suciente-
92
mente precisa para distinguir as diversas estratgias, ou seja, h sempre entropia de uma
estratgia dado um tipo.
Podemos utilizar a expresso (5.1) em conjunto com a expresso (4.7) para obter
uma estimativa da probabilidade de um agente encontrar um dado parceiro mais do que
p vezes (a ltima expresso d a probabilidade de um elemento sair mais do que p vezes
em y escolhas com reposio de um conjunto de tamanho x). A tabela apresenta os va-
lores que a expresso (4.7) toma quando substitumos x por [V[ e y pela expresso (5.1).
Para o clculo destes valores falta indicar o nmero de jogos em que consiste a avalia-
o de um agente, ou seja, N
J
= 20. Relembre-se que a populao composta por 100
agentes, [P[ = 100, o tamanho do conjunto dos vizinhos para a estrutura de populao,
respectivamente, lattice e bag , respectivamente, [V[ = 4 e [V[ = 99. Note-se que estes
valores no levam em conta o facto dos parceiros de um agente , na sua fase de avalia-
o, poderem escolher outros agentes (como parceiros) que no pertencem ao conjunto
V

.
p [V[ n probabilidade
1 4 2 1.0000
1 4 4 1.0000
2 4 2 1.0000
2 4 4 1.0000
3 4 2 1.0000
3 4 4 1.0000
1 99 2 0.3324
1 99 4 0.5507
2 99 2 0.3256
2 99 4 0.5461
3 99 2 0.3255
3 99 4 0.5461
Tabela 5.7: Probabilidade de um agente encontrar um parceiro mais do que p vezes.
Os valores de p, [V[ e n correspondem aos utilizados nas simulaes. Os valores da
probabilidade apresentados tm 4 casas decimais.
Para alm dos valores apresentados na tabela referida no pargrafo anterior, pode-
mos apresentar uma estimativa do nmero de vezes que um parceiro escolhido por um
agente para jogar.
(n1)N
J
[V[
+
(numJogos N
J
)
[V[
(5.3)
Aprimeira parcela vemdos jogos que fazemparte da avaliao do agente, enquanto a se-
gunda parcela representa os jogos que fazem parte da avaliao dos parceiros do agente.
Se esta expresso maior que 1, ento h pelo menos um parceiro que escolhido uma
93
vez. As tabelas 5.7(a) e 5.7(b) apresentam os valores das expresses, respectivamente,
(5.1) e( 5.3). Podemos observar que quanto maior for o nmero de parceiros e menor o
conjunto de vizinhos, maior ser o nmero de vezes que o mesmo parceiro escolhido.
(a) Nmero mdio de
jogos efectuados pelos
agentes.
[V[ n valor
4 2 36.0000
4 4 59.0400
99 2 39.8000
99 4 78.8080
(b) Nmero mdio de ve-
zes que um agente encon-
tra os seus vizinhos.
[V[ n valor
4 2 9.0000
4 4 24.7600
99 2 0.4040
99 4 1.2001
Tabela 5.8: Valores das expresses (5.1) e (5.3) para os vrios jogos utilizados e estru-
turas da populao. O jogo determina o nmero de parceiros, n, e a estrutura inuencia
o conjunto dos vizinhos.
Relativamente capacidade de identicao dos vrios parceiros que um agente
pode encontrar, de esperar uma maior inuncia dos parmetros n e V do que propria-
mente a probabilidade condicionada P(s[). Pelo menos nas simulaes onde utilizada
a estrutura de populao lattice de esperar alguma dependncia dos resultados em fun-
o desta probabilidade condicionada.
Modelo de Deciso de Recusa
O modelo de deciso de recusa diz se o agente recusa ou no tendo em conta os resul-
tados de jogos efectuados anteriores. A deciso baseada num valor associado a cada
tipo de agente, v(). Adicionalmente, guardado o nmero de jogos efectuados com
um determinado tipo de agente. Este nmero representado por j().
Foramutilizados dois modelos que diferemno modo como calculama utilidade v().
As caractersticas comuns aos dois modelos so o perodo inicial, p, em que o agente
nunca recusa um jogo contra um agente de qualquer tipo e o limite, , abaixo do qual
o agente recusa jogar com um agente de um dado tipo. Seja o tipo de um parceiro de
um agente, a deciso de jogar ou recusar dada por:
_

_
j() p joga
j() > p
_
v() < recusa
v() joga
O valor utilizado para depende da utilidade que um perl de estratgias ptima
de Pareto capaz de obter. Podamos utilizar directamente u
OP
, no entanto, como so
94
utilizadas estratgias estocsticas, o ganho de um perl de estratgias apresenta uma
distribuio de probabilidade. Devemos, ento, compensar pequenos deslizes por parte
de estratgias que na maior parte dos jogos comportam-se de modo cooperativo. Sendo
assim, foi utilizado um factor de ponderao, ou seja = 0.9u
OP
.
Mdia Aritmtica Simples O modelo tem uma mdia aritmtica simples do ganho ob-
tido pelo agente por cada tipo de agente. A mdia actualizada segundo o se-
guinte processo:
v()
v() j() +u
j() +1
onde u o ganho que o agente obteve no jogo com o parceiro de tipo .
Mdia Ponderada Nesta verso, dada mais importncia utilidade obtida no ltimo
jogo com o agente de do que aos anteriores. A frmula de clculo da utilidade
associada a seguinte:
v() av() +bu
Esta verso tem como parmetros a e b.
A utilizao da mdia ponderada necessitava da anao dos parmetros a e b. Para
evitar essa anao, nas simulaes que referimos nesta seco, foi usado a mdia arit-
mtica simples no clculo da utilidade agregada.
Como foi discutido na subseco 4.3.1, o valor para p no pode ser muito elevado
porque, caso contrrio, o agente poderia ser explorado. Nas simulaes referidas nesta
seco, os agentes jogam sempre os 3 primeiros jogos com um parceiro de qualquer
tipo.
No estando associada directamente ao modelo de deciso de recusa, a utilidade u
RC
inui no valor da expresso (4.3). Na discusso sobre esta utilidade na subseco 4.2.5
foramapresentados dois valores extremos, e infU (o infmo do conjunto das utilidades
do jogo J
R
), que foram utilizados nas simulaes referidas na presente seco. Na
descrio dos jogos, mencionaremos o valor utilizado como infU.
A tabela 5.9 resume os parmetros associados ao modelo de recusa.
clculo da utilidade agregada mdia aritmtica simples
limite para recusar f (u
OP
) = 0.9u
OP
p nmero de jogos exploratrios 1,2,3
Tabela 5.9: Parmetros associados ao modelo de recusa
Os valores destes parmetros no foram sujeitos a nenhuma variao. No foi efec-
tuada nenhuma anlise sobre qual o seu impacto na deciso de recusar ou jogar o jogo
J
R
. Podemos fazer as seguintes reexes sobre os valores escolhidos para os parme-
tros:
95
Atendendo expresso (4.3) e discusso efectuada sobre u
RC
na subseco 4.2.5,
o valor de poderia depender no s de u
OP
mas tambm do maior valor possvel
para u
RC
. Esta escolha poderia esconder o grau de indeterminismo presente nas
estratgia do jogo J
R
. O valor escolhido para u
OP
acabou por ser um compro-
misso e evitou-se a anlise das estratgias.
Poderiam ter sido utilizados outros valores para p, para obter uma sensibilidade
sobre o seu impacto no Jogo de Recusa. Poder-se-ia depois colocar a transposio
dos resultados para outros jogos J
R
que no os utilizados nas simulaes.
Podia ter sido utilizado um outro modelo de deciso de recusa, no entanto, como
se trata de trabalho inicial sobre o Jogo de Recusa, preferimos utilizar um modelo
simples, quer em termos de informao, quer em termos de algoritmo. A mdia
simples das utilidades um indicador que , tal como o nome implica, simples de
aplicar, no requerendo anaes de parmetros.
5.3.2 O Jogo J
R
Nesta seco vamos apresentar detalhes dos jogos utilizados com o Jogo de Recusa.
Todos os jogos referidos nesta seco j foram descritos neste documento. Foram utili-
zados 3 jogos que so descritos nos pontos seguintes.
Give-Take
O jogo Give-Take foi descrito e analisado em grande detalhe no captulo 3. J na sec-
o 5.2 foramdescritas as estratgias que os agentes podemutilizar no jogo. Aqui vamos
descrever a composio inicial da populao e os valores utilizados para os parmetros
das matrizes do jogo.
Na seco 5.2 foram analisadas simulaes onde foram testados vrios conjuntos de
valores dos parmetros das matrizes. No contexto do Jogo de Recusa, como dissemos
no incio da seco 5.3, interessa analisar o desempenho de um grupo de agentes coo-
perantes e no usar uma percentagem dos referidos conjuntos de valores. Poderamos
escolher um qualquer conjunto de valores ou utilizar outros valores para os parme-
tros das matrizes. A deciso para a escolha dos conjuntos de valores baseia-se no facto
de que o valor do parmetro b
g
inuencia a existncia ou no de mltiplas estratgias
ptima de Pareto. Quando h mltiplas estratgias ptima de Pareto pode haver com-
petio entre os agentes que as utilizam se estes no se coordenarem atravs de, por
exemplo, um acordo. motivado pelo nmero de estratgias ptima de Pareto que
vamos utilizar dois conjuntos de parmetros: um em que o parmetro b
g
tem o valor
0 e outro em que tem o valor 2. Relativamente aos outros parmetros, escolhemos os
96
seguintes valores:
p
r
= 4
c
pt
= 5
c
st
= 15
A nica motivao foi o sujeito da aco take sofrer um custo superior ao actuante desta
aco.
Como foi descrito na subseco 5.2.2, o fentipo das estratgias deste jogo com-
posto por dois valores reais que denotam o tempo mdio que um agente tem o recurso
antes de o dar e o tempo mdio que o agente no tem o recurso antes de o tirar. Como
os parmetros do fentipo F
g
e F
t
tomam valores compreendidos entre 1 e 16, um va-
lor base para o nmero total de tipos disponvel 16 16 = 256, se considerssemos
unicamente valores inteiros (estratgias determinsticas). No entanto, tendo em conta o
nmero espectvel de jogos que um agente faz por gerao, tal como foi discutido na
subseco 5.3.1, no s este valor que vai inuenciar a deciso de jogar ou recusar do
Jogo de Recusa. A estrutura da populao e o nmero de jogadores do jogo inuenciam
a probabilidade de um agente encontrar um dado parceiro um certo nmero de vezes.
Nestas simulaes, optmos por manter o tamanho do conjunto de tipos igual em todos
os cenrios. Assim, optmos por utilizar 25 tipos.
Relativamente s utilidades especcas ao Jogo de Recusa, no caso em que u
RC
=
infU, foi utilizado o seguinte valor:
infU =
p
r
c
pt
c
st
2
1
Na deciso de recusar ou jogar, foi utilizado o seguinte valor, que representa o ganho de
uma estratgia ptima de Pareto:
u
OP
=
p
r
+b
g
2
T 1, . . . , 25
u
OP
p
r
+b
g
2
u
RC
p
r
c
pt
c
st
2
1
Tabela 5.10: Parmetros e condies especcos ao Give-Take no Jogo de Recusa.
97
Populao Inicial Conforme o objectivo da simulao, a populao inicial podia ser
composta por uma combinao de duas ou trs das seguintes estratgias: cooperante,
exploradora e aleatria.
A estratgia cooperante tem o modelo de acordo descrito na seco 5.2.2 na p-
gina 83. Os valores dos parmetros desta estratgia so os seguintes:
s
A
= 1
p
A
= 1
p
Q
= 0
Estes valores tornam irrelevantes os parmetros s
Q
e s
N
. Com estes parmetros, a es-
tratgia cooperante obtm o ganho mximo quando joga consigo prpria, no entanto
passvel de ser explorada por estratgias que dem o recurso ao m de 2 ou mais
iteraes com ele.
A estratgia exploradora utiliza uma representao probabilstica. Este modelo im-
plica que a estratgia tem de dar o recurso
8
. Os valores dos parmetros so os seguintes:
t
r
= 16
p
g
= 0
t
g
= 16
t
r
= 1
p
t
= 1
t
t
= 1
Com estes parmetros e tendo em conta o modelo utilizado, esta estratgia atrasa a
entrega do recurso o mais tarde possvel. Esta estratgia, quando joga com a estratgia
cooperante, tem um ganho superior. Porm quando joga consigo prpria, passam o jogo
a tirar o recurso uma outra, obtendo assim o pior ganho.
A estratgia aleatria utiliza o modelo probabilstico.
Dilema do Prisioneiro Iterado
O IPD foi descrito na seco 2.3.1. Aqui vamos descrever primeiro qual a estratgia
implementada para jogar o jogo e a composio da populao inicial.
8
Simulaes anteriores usavam um modelo probabilstico que no tinha os parmetros t
g
e t
g
pelo que
era possvel ter estratgias que nunca davam ou que nunca tiravam o recurso.
98
Foram utilizados os seguintes valores na deciso de recusar ou jogar:
u
OP
=C
u
RC
= S1
Relativamente aos parmetros da matriz do jogo, foram utilizados os seguintes va-
lores:
T = 5
C = 3
P = 1
S = 0
Na implementao do jogo em si, relativamente iterao, era simulada uma itera-
o do jogo e depois a probabilidade de haver mais uma iterao foi de 0.9. Isto implica
que a durao de um jogo segue uma distribuio geomtrica, G(0.1), logo a durao
mdia dos jogos igual a 10.
Descrio da Estratgia A estratgia implementada tem memria de tamanho N
M
. O
agente guarda as ltimas N
M
aces (suas e as do seu parceiro). Para cada combinao
possvel a estratgia diz qual a probabilidade do agente cooperar. Cada combinao
representa uma histria.
O nmero de combinaes possveis :
4
N
M
Foi utilizado N
M
= 1 pelo que uma estratgia representada pelo tuplo (c
1
, c
C
, c
D
)
em que c
1
representa a probabilidade de cooperar na primeira jogada, c
C
a probabilidade
de cooperar se o oponente cooperou na ltima jogada e c
D
representa a probabilidade
de cooperar se o oponente traiu na ltima jogada.
O comportamento de uma estratgia num jogo pode ser descrito pelo nmero de
iteraes em que joga a aco cooperar e pelo nmero de iteraes em que joga a aco
trair. Como este jogo s tem duas aces, o fentipo pode ser composto, por exemplo,
pela proporo de iteraes em que joga a aco cooperar. Seja, ento, F
C
o nico
parmetro do fentipo de uma estratgia. Os valores possveis pertencem ao intervalo
[0; 1].
Como o fentipo composto por nmero real, s possvel ter identicao cor-
recta das estratgias dado o tipo, quando o nmero de tipos corresponder preciso dos
nmeros reais. Assim, tal como foi armado na pgina 92 optmos por basear o nmero
de tipos numa partio do intervalo [0; 1]. No presente caso, optmos por estabelecer o
nmero de tipos igual a 10 o que d para cada tipo 10% das estratgias disponveis.
99
A tabela 5.11 descreve o nmero de parties efectuadas juntamente com outros
parmetros e condies usadas nas simulaes.
N
M
tamanho da memria 1
T 1, . . . , 10
u
OP
C
u
RC
S1
probabilidade de mais uma iterao 0.9
Tabela 5.11: Parmetros e condies especcos ao IPD no Jogo de Recusa.
Populao Inicial A estratgia cooperante foi a Tit-for-Tat. Esta estratgia tem uma
memria de tamanho 1, coopera na primeira jogada e depois repete a jogada do adver-
srio. Esta estratgia representada pelo seguinte tuplo:
_
c
1
= 1 c
C
= 1 c
D
= 0
_
A estratgia exploradora foi a AllD. Esta estratgia trai sempre. Ela representada
pelo seguinte tuplo:
_
c
1
= 0 c
C
= 0 c
D
= 0
_
Dilema do Lenhador
O Dilema do Lenhador foi descrito em termos gerais na seco 2.3.4. Aqui vamos apre-
sentar os parmetros e os modelos utilizados para representar a dinmica da interaco
entre os lenhadores e as rvores e descrever a estratgia utilizada pelos lenhadores.
Descrio do Jogo Para as simulaes considermos que num jogo N
L
lenhadores
geriam N
A
rvores.
Em cada iterao do jogo os N
L
observam a altura das N
A
rvores e decidem em
simultneo quantas rvores que cortam. As rvores cortadas so divididas pelos le-
nhadores que indicaram inteno de cortar. O crescimento das rvores dado por uma
funo linear:
a(t +1) = min(F
c
a(t), 1)F
a
M
em que a(t) representa a altura da rvore, F
c
um factor de crescimento, F
a
um factor
de abate e M o nmero de lenhadores que querem cortar a rvore. A altura da rvore
e o factor F
a
tomam valores no intervalo [0; 1]. O factor F
c
um valor real positivo no
nulo. As rvores crescem linearmente at uma altura mxima de 1.
100
A madeira que distribuda pelos lenhadores igual a:
a(t)(1F
a
M
)
M
Este valor o ganho por iterao de um lenhador que tenha decido cortar a rvore
associada a a(t).
Um jogo tem um nmero mnimo de iteraes ndas as quais o jogo passa a ter uma
probabilidade de continuar por mais uma iterao. Cada jogo tem no mnimo 5 iteraes
e a probabilidade de continuar 0.5, ou seja, a durao de um jogo expressa por uma
varivel com distribuio geomtrica: 4+G(0.5). A durao mdia de um jogo 5.
Os parmetros relacionados com a deciso de recusar ou jogar so:
u
OP
= 0.5
u
RC
=1
A tabela 5.12 apresenta os valores dos parmetros e resume as condies descritas
atrs.
N
L
Nmero de lenhadores 4
N
A
Nmero de rvores 2
Nmero mnimo de iteraes 5
Probabilidade de mais uma iterao 0.5
F
c
Factor de crescimento 2
F
a
Factor de abate 0.5
Tabela 5.12: Parmetros e condies utilizadas no jogo Dilema do Lenhador.
Descrio das Estratgias Cada lenhador usa uma estratgia determinstica para de-
cidir quando que corta uma ou mais rvores. Os parmetros da estratgia so (a, q).
O parmetro a representa a altura mnima que a rvore deve ter para ser cortada pelo
lenhador. O parmetro q representa o nmero mximo de rvores que o lenhador corta
por iterao.
Cada estratgia est sujeita a uma mutao com probabilidade 20%. Ao parmetro
a adicionado rudo gaussiano com desvio padro de 0.1. O parmetro q afectado
de uma varivel binomial com probabilidade de sucesso de 30%. A alterao pode ser
negativa ou positiva (probabilidade 50%).
Mais uma vez estamos perante estratgias com parmetros reais, o que levanta pro-
blemas de identicao das estratgias dado um tipo. Como o comportamento de um
101
agente regido pelo tamanho das rvores e sendo este representado por um nmero real
do intervalo [0; 1], optmos por considerar um conjunto de tipos com 10 valores. De
um modo geral, podemos dizer que cada tipo corresponde a 10% do espao total de
estratgias.
A tabela 5.13 contm os valores dos parmetros descritos atrs.
a altura mnima da rvore [0; 1]
q nmero mximo de rvores cortadas 1, . . . , N
A

probabilidade operador de mutao 20%


mutao parmetro a N(0, 0.1)
mutao parmetro q B(3/10)
T
A
conjunto dos tipos do agente 1, . . . , 10
u
OP
0.5
u
RC
-1
Tabela 5.13: Parmetros e condies respeitantes estratgia determinstica utilizada
no jogo Dilema do Lenhador.
Populao Inicial Os agentes com a estratgia cooperante tinham uma estratgia ba-
seada em acordos, descrito na pgina 83. Aqui, a noo de cooperao no implica um
ganho mximo para os agentes. Ao invs, a cooperao no sentido de esperar que a
rvore atinja o tamanho mximo antes de ser cortada.
A estratgia utilizada quando h um acordo, representada pelo parmetro s
A
, tal
que os agentes s cortam uma rvore quando esta se encontrar na altura mxima. Os
valores usados so descritos a seguir:
s
A
= (a = 1; q = N
A
)
p
A
= 1
p
Q
= 0
Aqui mais uma vez omitimos os valores dos parmetros s
Q
e s
N
por os valores anteriores
tornarem estes parmetros irrelevantes.
A estratgia exploradora era uma estratgia determinstica. Os valores usados so:
a = 0.4
q = N
A
102
5.3.3 Anlise dos Resultados
Como dissemos no incio desta seco, o objectivo das simulaes com o Jogo de Re-
cusa analisar o desempenho das estratgias cooperantes. Para efectuar uma compara-
o do Jogo de Recusa, apresentamos primeiro os resultados das simulaes de controlo
onde foi utilizado unicamente o jogo J
R
, isto , simulaes sem o Jogo de Recusa. De
seguida, apresentamos os resultados obtidos nas simulaes com o Jogo de Recusa e as
estratgias cooperantes.
Foram estabelecidos trs cenrios onde as estratgias referidas como cooperantes
eram emparelhadas com outras estratgias:
padro Estratgias cujos parmetros eram calculados aleatoriamente e que recusam jo-
gar caso a utilidade associada a um tipo seja inferior a um dado valor. Foram
utilizadas variveis aleatrias com distribuio uniforme no clculo dos parme-
tros.
yesplay Estratgias cujos parmetros eram calculados aleatoriamente. Estas estratgias
nunca recusam um jogo. Aqui tambm foram utilizadas variveis aleatrias com
distribuio uniforme.
predef As estratgias tinham parmetros calculados de maneira a que explorassem as
estratgias cooperantes. Estas estratgias so as referidas pelo nome exploradora
cujos parmetros esto descritos na subseco 5.3.2 nos pontos Populao Ini-
cial.
Mediu-se o nmero de simulaes que terminavam com algumas estratgias coo-
perantes e a mdia de estratgias cooperantes na ltima gerao. Nas guras onde so
apresentados estes resultados foi utilizada a mesma legenda que, por questes de espao
e de apresentao do contedo da tese, est apresentada na gura 5.5.
lattice
bag
padro
yesplay
predef
Figura 5.5: Legenda para as guras com o nmero de simulaes que terminam com
algumas estratgias cooperantes e com a mdia de estratgias cooperantes na ltima
gerao.
103
Experincia de Controlo
Podemos constatar que nos cenrios yesplay e padro as estratgias aleatrias tm o
mesmo comportamento, logo de esperar que os resultados sejam semelhantes. A -
gura 5.6 apresenta grcos com a mdia de estratgias cooperantes na ultima gerao
e a percentagem de simulaes que terminam com cooperantes versus a percentagem
inicial de cooperantes.
Jogo Give-Take Ao observarmos os grcos para o jogo Give-Take constamos que
s no cenrio predef as estratgias cooperantes esto presentes no nal das simulaes.
Este facto pode signicar uma m escolha para a estratgia exploradora. Se esta estrat-
gia tira o recurso ao m de uma iterao sem o mesmo, tem vantagem sobre a estratgia
cooperante, no entanto quando joga consigo, esta caracterstica faz com que, neste caso,
o ganho seja inferior. A estratgia exploradora consegue invadir uma populao de
cooperantes, mas a sua percentagem pequena
9
.
Nos outros cenrios, a estratgia cooperante no est presente na ltima gerao. Por
observao da gura 3.3 na pgina 44, se o ponto s
1
em ambos os grcos representar
a estratgia cooperante, ento este situa-se na recta give = 1, e o ponto equivalente a
(s
1
, s
2
) =D situa-se na recta take = 1. Neste caso, a superfcie equivalente aos casos
C, E e F desaparece. O ganho da estratgia s
2
, que representa a estratgia aleatria
nestes cenrios, aumenta. Todas as estratgias
10
s
2
com t
2
t
> t
2
g
conseguem invadir
uma populao de estratgias cooperantes. Isto representa quase metade do total de
estratgias possveis. Visto as estratgias serem aleatrias e estocsticas, h poucas
hipteses das estratgias cooperantes estarem presentes no nal das simulaes.
Jogo IPD Relativamente ao jogo IPD, visto a estratgia cooperante utilizada ser tam-
bm uma Estratgia Evolucionariamente Estvel (EEE), de esperar que esta esteja
presente no nal de todas as simulaes. Os casos em que tal no se verica podem
dever-se ao valor pequeno da percentagem inicial e combinao de outras estratgias.
A estratgia tit-for-tat vulnervel a determinados pares de estratgias (Brembs, 1996).
Jogo Dilema do Lenhador Este jogo apresenta os piores resultados, j que quase
todas as simulaes terminam sem a estratgia cooperante. O facto deve-se a esta es-
tratgia no ter o ganho mximo, apesar das rvores serem cortadas s quando esto na
altura mxima. A gura 5.7 apresenta o ganho acumulado das estratgias cooperante
e exploradora, quando cada uma delas joga o jogo sozinha com uma nica rvore. A
linha a vermelho representa a altura da rvore e podemos observar que para o caso da
9
Por aplicao da equao de replicao, o ponto xo estvel x = 0.05 sendo x a proporo de
estratgias exploradoras na populao.
10
Aqui estamos a utilizar a nomenclatura do captulo 3.
104
0
20
40
60
80
100
10 20 30 40 50 60 70 80 90
m

d
i
a

d
e

c
o
o
p
e
r
a
n
t
e
s
n
a

l
t
i
m
a

g
e
r
a

o
percentagem de cooperantes iniciais
GiveTake (b
g
=0)
0
20
40
60
80
100
10 20 30 40 50 60 70 80 90
p
e
r
c
e
n
t
a
g
e
m

d
e

s
i
m
u
l
a

e
s
q
u
e

t
e
r
m
i
n
a
m

c
o
m

c
o
o
p
e
r
a
n
t
e
s
percentagem de cooperantes iniciais
GiveTake (b
g
=0)
0
20
40
60
80
100
10 20 30 40 50 60 70 80 90
m

d
i
a

d
e

c
o
o
p
e
r
a
n
t
e
s
n
a

l
t
i
m
a

g
e
r
a

o
percentagem de cooperantes iniciais
GiveTake (b
g
=2)
0
20
40
60
80
100
10 20 30 40 50 60 70 80 90
p
e
r
c
e
n
t
a
g
e
m

d
e

s
i
m
u
l
a

e
s
q
u
e

t
e
r
m
i
n
a
m

c
o
m

c
o
o
p
e
r
a
n
t
e
s
percentagem de cooperantes iniciais
GiveTake (b
g
=2)
0
20
40
60
80
100
10 20 30 40 50 60 70 80 90
m

d
i
a

d
e

c
o
o
p
e
r
a
n
t
e
s
n
a

l
t
i
m
a

g
e
r
a

o
percentagem de cooperantes iniciais
Dilema do Lenhador
0
20
40
60
80
100
10 20 30 40 50 60 70 80 90
p
e
r
c
e
n
t
a
g
e
m

d
e

s
i
m
u
l
a

e
s
q
u
e

t
e
r
m
i
n
a
m

c
o
m

c
o
o
p
e
r
a
n
t
e
s
percentagem de cooperantes iniciais
Dilema do Lenhador
0
20
40
60
80
100
10 20 30 40 50 60 70 80 90
m

d
i
a

d
e

c
o
o
p
e
r
a
n
t
e
s
n
a

l
t
i
m
a

g
e
r
a

o
percentagem de cooperantes iniciais
IPD
0
20
40
60
80
100
10 20 30 40 50 60 70 80 90
p
e
r
c
e
n
t
a
g
e
m

d
e

s
i
m
u
l
a

e
s
q
u
e
t
e
r
m
i
n
a
m

c
o
m

c
o
o
p
e
r
a
n
t
e
s
percentagem de cooperantes iniciais
IPD
Figura 5.6: Resultados das experincias de controlo s com o jogo J . Para interpretar
os grcos, consulte a legenda na gura 5.5.
105
0
0.2
0.4
0.6
0.8
1
0 2 4 6 8 10 12 14 16
0
1
2
3
4
5
6
a
l
t
u
r
a
g
a
n
h
o
iterao
rvore
ganho
coop
expl
Figura 5.7: Comparao do ganho entre a estratgia cooperante e a estratgia explora-
dora. Os pontos indicam a estratgia e a cor da linha indica o ganho da estratgia e a
altura da rvore ao longo das vrias iteraes.
estratgia cooperante (na legenda so os pontos coop), a rvore cresce at atingir a altura
mxima e depois oscila entre metade da altura e o tamanho mximo. O ganho da estra-
tgia cooperante sobe em degrau a partir da iterao 4, enquanto o ganho da estratgia
exploradora sobe continuamente, a partir da iterao 2.
Com a gura 5.7 mostramos que a estratgia cooperante no obtm o ganho mximo
quando joga entre si. Num jogo entre a estratgia cooperante e a estratgia exploradora,
a primeira nunca chega a cortar nenhuma rvore, pois a segunda no deixa que nenhuma
rvore atinja a altura mxima. Com este jogo e esta estratgia cooperante pretendemos
mostrar que o Jogo de Recusa pode ser utilizado por uma estratgia qualquer (no
precisa ser ptima de Pareto) para, atravs de um algoritmo evolutivo, ser a nica re-
presentante numa populao ao m de determinadas geraes.
Experincias com Jogo de Recusa
Para alm dos valores utilizado para a constante u
RC
mencionados nas tabelas 5.10, 5.11
e 5.12, foi utilizado outro de uma ordem de grandeza maior que os valores anteriores.
Este valor u
RC
= 9 10
10
. Na discusso e nas guras que se seguem (5.8 a 5.10)
quando se refere u
RC
= quer dizer que o valor utilizado para u
RC
9 10
10
e
quando se refere inf u
RC
quer dizer que o valor utilizado para u
RC
o referido nas tabelas
indicadas atrs. A razo da utilizao destes valores vem da discusso presente na
subseco 4.2.5 na pgina 62 sobre qual o valor que a constante u
RC
deve ter.
Dos trs cenrios descritos, o yesplay apresenta maiores diculdades s estratgias
cooperantes, visto as estratgias com parmetros aleatrios com quem joguem nunca
recusarem um jogo J
R
. Os ganhos que as estratgias com parmetros aleatrios obtm
nos jogos efectuados unicamente entre si, so sempre maiores que u
RC
. Se esses ganhos
forem maiores ou iguais (que pode ser o caso do jogo Give-Take e do Dilema do Le-
nhador), aquando da fase de seleco do Algoritmo Evolucionrio (AE) estas ou esto
em p de igualdade ou tm vantagem sobre as estratgias cooperantes. Os resultados
obtidos com este cenrio comparativamente com o cenrio padro so mais relevantes
106
0
20
40
60
80
100
10 20 30 40 50 60 70 80 90 p
e
r
c
e
n
t
a
g
e
m

d
e

s
i
m
u
l
a

e
s

q
u
e
t
e
r
m
i
n
a
m

c
o
m

c
o
o
p
e
r
a
n
t
e
s
percentagem de cooperantes iniciais
GiveTake (inf u
RC
, b
g
=0)
0
20
40
60
80
100
10 20 30 40 50 60 70 80 90 p
e
r
c
e
n
t
a
g
e
m

d
e

s
i
m
u
l
a

e
s

q
u
e
t
e
r
m
i
n
a
m

c
o
m

c
o
o
p
e
r
a
n
t
e
s
percentagem de cooperantes iniciais
GiveTake (inf u
RC
, b
g
=2)
0
20
40
60
80
100
10 20 30 40 50 60 70 80 90 p
e
r
c
e
n
t
a
g
e
m

d
e

s
i
m
u
l
a

e
s

q
u
e
t
e
r
m
i
n
a
m

c
o
m

c
o
o
p
e
r
a
n
t
e
s
percentagem de cooperantes iniciais
GiveTake (u
RC
=infto, b
g
=0)
0
20
40
60
80
100
10 20 30 40 50 60 70 80 90 p
e
r
c
e
n
t
a
g
e
m

d
e

s
i
m
u
l
a

e
s

q
u
e
t
e
r
m
i
n
a
m

c
o
m

c
o
o
p
e
r
a
n
t
e
s
percentagem de cooperantes iniciais
GiveTake (u
RC
=infto, b
g
=2)
Figura 5.8: Resultados das experincias envolvendo o Jogo de Recusa com o jogo
Give-Take. Para interpretar os grcos, consulte a legenda na gura 5.5.
para a validao do Jogo de Recusa.
Cenrio padro Nas experincias com estratgias aleatrias e que recusam jogar,
vericou-se que as estratgias cooperantes so mais frequentes na ltima gerao quanto
maior for a sua percentagem inicial. Nos jogos Give-Take e IPD so mais frequentes as
estratgias cooperantes do que no jogo Dilema do Lenhador. O menor valor observado
neste ltimo deve-se ao facto de ser um jogo com mais de 2 jogadores e ser mais difcil
discriminar o agente explorador. Tanto o jogo Give-Take como o Dilema do Lenhador
tem vrios pers de estratgia ptima de Pareto. Se porventura, alguma das estratgias
aleatrias pertencer a um destes pers, capaz de tomar conta da populao.
A predominncia das estratgias cooperantes na ltima gerao da simulao para
qualquer percentagem inicial das mesmas deve-se ao facto das estratgias aleatrias
poderem recusar jogar o jogo J . No caso do jogo Give-Take, uma estratgia aleatria
que d o recurso o mais tarde possvel beneciada nos primeiros p jogos que efectua
com uma estratgia cooperante. Findo esses jogos, a estratgia cooperante recusa-se
a jogar com aquela estratgia aleatria. Este cenrio apresenta-se como um dos mais
bencos para as estratgias cooperantes.
107
0
20
40
60
80
100
10 20 30 40 50 60 70 80 90 p
e
r
c
e
n
t
a
g
e
m

d
e

s
i
m
u
l
a

e
s

q
u
e
t
e
r
m
i
n
a
m

c
o
m

c
o
o
p
e
r
a
n
t
e
s
percentagem de cooperantes iniciais
IPD (inf u
RC
)
0
20
40
60
80
100
10 20 30 40 50 60 70 80 90 p
e
r
c
e
n
t
a
g
e
m

d
e

s
i
m
u
l
a

e
s

q
u
e
t
e
r
m
i
n
a
m

c
o
m

c
o
o
p
e
r
a
n
t
e
s
percentagem de cooperantes iniciais
IPD (u
RC
=infto)
Figura 5.9: Resultados das experincias envolvendo o Jogo de Recusa com o jogo IPD.
O grco da esquerda corresponde ao caso u
RC
= inf u e o da direita a u
RC
= . Para
interpretar os grcos, consulte a legenda na gura 5.5.
Cenrio yesplay No cenrio composto por estratgias que nunca recusam, estas con-
seguem ter um ganho superior estratgia cooperante por no recusarem quando tm
que jogar entre si. Este factor tem um impacto to elevado que no jogo Dilema do Le-
nhador praticamente no h nenhuma simulao que termine com estratgias cooperan-
tes. Os grcos presentes na gura 5.10 mostram que s quando h 90% de estratgias
cooperantes na populao inicial que algumas delas aparecem na ltima gerao.
Nos outros dois jogos a estrutura da populao inuencia o nmero de estratgias
cooperantes. Numa estrutura lattice como h maior probabilidade das estratgias yes-
play encontrarem a mesma estratgia cooperante, aquelas no tm tanto sucesso como
numa estrutura bag. Da observao dos grcos presentes nas guras 5.8 e 5.9 po-
demos constatar que este cenrio (linhas com o smbolo ) o que apresenta menor
percentagem de simulaes com estratgias cooperantes na ltima gerao.
Na anlise do Jogo de Recusa, o ganho num jogo entre agentes pertencentes a gru-
pos diferentes est restrito a u
RC
. A diferena destes resultados para o cenrio padro
reside no ganho que as estratgias aleatrias obtm quando jogam entre si sendo maior
no cenrio yesplay. Para o cenrio padro, a expresso (4.3) toma o valor 1, o que quer
dizer que a proporo de agentes A tende para 0. No entanto, convm lembrar que as es-
tratgias cooperantes nunca recusam jogar os primeiros p jogos. Este factor suciente
para que na fase de seleco do AE entre uma estratgia exploradora e uma cooperante
que jogaram entre si, a primeira leve vantagem sobre a segunda.
A estrutura da populao (lattice e bag) inuencia mais uma vez os resultados. Uma
estrutura em que as interaces so locais no permite a proliferao de estratgias.
Comparando com as experincias de controlo, observamos que:
No caso do jogo Give-Take h um aumento das simulaes que terminam com es-
tratgias cooperantes, comvantagempara a estrutura de populao lattice. Quando
108
na estrutura de populao lattice houver menos estratgias cooperantes, tal poder-
se- dever ao facto de que quanto menos estratgias houver, menor sero as pro-
babilidades de jogarem entre si (as interaces so locais). Outra explicao
a existncia de uma estratgia exploradora que, por ter parmetros aleatrios, ao
obter o mesmo ganho (em jogos entre elas), ca em melhor posio (por nunca
recusarem) que as estratgias cooperantes.
No caso do jogo IPD h uma diminuio das simulaes com estratgias coope-
rantes na ltima simulao. Ao contrrio dos outros dois jogos, a estratgia base
utilizada (tit-for-tat) uma EEE. Porm como os agentes recusam (relembramos
que esta aco no racional por ter um ganho inferior aos ganhos obtidos no
jogo IPD), os agentes cooperantes j no utilizam uma estratgia EEE. Na prtica,
j no garantido que a proporo de agentes cooperantes aumente para qualquer
proporo inicial.
Relativamente ao jogo Dilema do Lenhador so poucas as simulaes que ter-
minam com estratgias cooperantes. A estratgia cooperante tem um ganho que
inferior ao ptima de Pareto e encontra-se numa posio desvantajosa face s
estratgias exploradoras apesar de terem parmetros inicializados aleatoriamente.
Neste cenrio e no anterior no foi medido quais as estratgias aleatrias existentes
na ltima gerao.
0
20
40
60
80
100
10 20 30 40 50 60 70 80 90 p
e
r
c
e
n
t
a
g
e
m

d
e

s
i
m
u
l
a

e
s

q
u
e
t
e
r
m
i
n
a
m

c
o
m

c
o
o
p
e
r
a
n
t
e
s
percentagem de cooperantes iniciais
Dilema Lenhador (inf u
RC
)
0
20
40
60
80
100
10 20 30 40 50 60 70 80 90 p
e
r
c
e
n
t
a
g
e
m

d
e

s
i
m
u
l
a

e
s

q
u
e
t
e
r
m
i
n
a
m

c
o
m

c
o
o
p
e
r
a
n
t
e
s
percentagem de cooperantes iniciais
Dilema Lenhador (u
RC
=infto)
Figura 5.10: Resultados das experincias envolvendo o Jogo de Recusa com o jogo
Dilema do Lenhador. Para interpretar os grcos, consulte a legenda na gura 5.5.
Cenrio predef Finalmente, nas experincias com uma estratgia exploradora pr-
determinada verica-se que as estratgias cooperantes no s marcam presena na l-
tima gerao como, na maior parte das simulaes, tomam conta por completo da po-
pulao. Tal deve-se ao facto de s estarem presentes na populao duas estratgias
109
Give-Take
u
RC
25.0%
p 14.4%
estratgia e tipo 1.4%
Give-Take b
g
= 0
u
RC
18.5%
p 15.7%
estratgia e tipo 2.8%
Give-Take b
g
= 2
u
RC
31.5%
p 13.0%
estratgia e tipo 0.0%
IPD
u
RC
15.0%
p 13.0%
estratgia e tipo 0.9%
Dilema do Lenhador
u
RC
18.5%
p 18.8%
estratgia e tipo 0.9%
Tabela 5.14: Percentagem de condies em que o teste da hiptese existncia de corre-
lao positivo.
diferentes. Nos jogos Give-Take e IPD todas as simulaes terminam com a populao
composta unicamente pelas estratgias cooperantes. O jogo Dilema do Lenhador a
excepo j que a estratgia cooperante apesar de garantir que as rvores s so corta-
das quando tm a altura mxima, no a que tem o maior ganho para o lenhador. Aqui,
a noo de cooperao em relao com as rvores, pois espera-se que elas atinjam o
tamanho mximo.
Parmetros do Jogo de Recusa Para alm dos valores utilizados para a utilidade
u
RC
, foram tambm efectuadas simulaes para diversos valores do parmetro p e para
vrias relaes entre as estratgias e os tipos traduzido em diferentes valores para o
parmetro x presente na expresso (5.2).
Na apresentao dos grcos anteriores, omitimos a referncia a estes parmetros
pois os resultados so semelhantes para os vrios valores dos parmetros. Relativamente
ao efeito do parmetro p, notou-se que, quanto maior o seu valor maior era a percenta-
gem de simulaes que tinham estratgias cooperantes na ltima gerao. Tal pode ser
explicado devido ao facto de que quanto menos vezes uma estratgia recusar maior ser
o seu ganho imediato.
A tabela 5.14 apresenta a percentagem de condies (conjuntos de valores dos par-
metros) que passaram o teste da hiptese de existncia de correlao entre um dos trs
parmetros (u
RC
, p, relao entre estratgia e tipo) e a presena ou no de estratgias
cooperantes na ltima gerao da simulao.
110
0 refusal lattice coop90 0 1 69
0 refusal lattice coop90 1 1 100
0 refusal lattice coop90 1 1 100
0 normal lattice coop90 0 0 0
0 normal lattice coop90 0 0 0
0 normal lattice coop90 0 1 1
Tabela 5.15: Exemplo de um cheiro utilizado para o clculo da correlao. Cada linha
representa uma simulao, a coluna 2 indica se foi utilizado o Jogo de Recusa ou no e
a coluna 6 indica se a simulao tinha estratgias cooperantes na ltima gerao.
Foi efectuado um teste bilateral com um nvel de signicncia de 5%. Relembramos
que foram efectuadas 30 simulaes para cada conjunto de valores dos parmetros, logo
o tamanho da amostra igual a 30 vezes o nmero de valores do parmetro utilizado
(u
RC
, p ou relao entre estratgia e tipo). As amostras tinham tamanho 60 ou 90. Con-
sultando uma tabela de valores crticos para coecientes de correlao, o valor absoluto
mnimo tem de ser, respectivamente, 0.2524 e 0.2072 para que a hiptese seja aceite.
Dos trs parmetros relativos ao Jogo de Recusa, a relao entre estratgia e tipo
foi o que menos contributo teve para o aumento (ou diminuio) do nmero de simula-
es com estratgias cooperantes na ltima gerao da simulao. Para os outros dois
parmetros existe discordncia j que no tm a mesma posio nem o mesmo contri-
buto. A inuncia do parmetro p j foi referida atrs. A inuncia do parmetro u
RC
depende do valor do ponto xo x
0
quando u
RC
= e quando u
RC
= inf u. Se no clculo
da correlao o primeiro valor (de u
RC
) corresponder a 1 e o segundo a 0, o valor de x
0
para u
RC
= for superior ao valor de x
0
para u
RC
= inf u, ento a correlao deve ser
positiva
11
. O valor pequeno observado para o parmetro u
RC
pode ser devido ao facto
do valor de x
0
quando u
RC
= inf u, apresentado na tabela 5.16, ser prximo de 0.5 (o
valor de x
0
quando u
RC
= ). A discordncia relativa ao parmetro p, pode-se dever a
diferenas quanto ao nmero de simulaes que terminam com cooperantes.
Comparao entre Experincias de Controlo e com Jogo de Recusa
Factor de Correlao Os comentrios feitos atrs podem ser consubstanciados com a
apresentao da correlao entre a utilizao ou no do Jogo de Recusa e a presena de
estratgias cooperantes na ltima gerao da simulao. Se a simulao utiliza o Jogo
de Recusa, foi utilizado o valor 1, caso contrrio foi utilizado o valor 0. A tabela 5.15
mostra um exemplo de um cheiro utilizado no clculo da correlao.
Ao observarmos os grcos presentes na gura 5.11, constatamos que h condies
onde ocorre correlao positiva (o Jogo de Recusa contribui para o aumento da presena
de estratgias cooperantes na ltima gerao das simulaes) em qualquer dos jogos.
11
Quanto maior o valor de x
0
, menor a percentagem inicial de estratgias cooperantes para que estas
sejam as nicas presentes na ltima gerao.
111
1
0.5
0
0.5
1
10 20 30 40 50 60 70 80 90
c
o
r
r
e
l
a

o
percentagem de cooperantes iniciais
GiveTake (b
g
=0)
1
0.5
0
0.5
1
10 20 30 40 50 60 70 80 90
c
o
r
r
e
l
a

o
percentagem de cooperantes iniciais
GiveTake (b
g
=0)
1
0.5
0
0.5
1
10 20 30 40 50 60 70 80 90
c
o
r
r
e
l
a

o
percentagem de cooperantes iniciais
GiveTake (b
g
=2)
1
0.5
0
0.5
1
10 20 30 40 50 60 70 80 90
c
o
r
r
e
l
a

o
percentagem de cooperantes iniciais
GiveTake (b
g
=2)
1
0.5
0
0.5
1
10 20 30 40 50 60 70 80 90
c
o
r
r
e
l
a

o
percentagem de cooperantes iniciais
Dilema Lenhador
1
0.5
0
0.5
1
10 20 30 40 50 60 70 80 90
c
o
r
r
e
l
a

o
percentagem de cooperantes iniciais
Dilema Lenhador
1
0.5
0
0.5
1
10 20 30 40 50 60 70 80 90
c
o
r
r
e
l
a

o
percentagem de cooperantes iniciais
IPD
1
0.5
0
0.5
1
10 20 30 40 50 60 70 80 90
c
o
r
r
e
l
a

o
percentagem de cooperantes iniciais
IPD
Figura 5.11: Correlao entre a utilizao do Jogo de Recusa e a presena de estratgias
cooperantes na ltima gerao. Os grcos da esquerda correspondem a u
RC
= e os
da direita a u
RC
= inf u. Para interpretar os grcos, consulte a legenda na gura 5.5.
112
As condies utilizadas no Dilema do Lenhador so bastante adversas, mas no
obstante observmos uma correlao algo signicativa. Note-se que a correlao 1
unicamente nos cenrios padro e predef. Quando as estratgias exploradoras nunca
recusam, a correlao nula (cenrio yesplay). Os grcos presentes na gura 5.10
mostram que, neste cenrio, s no caso em que a percentagem inicial de cooperantes
90% e u
RC
igual a que h cooperantes na ltima gerao e, mesmo assim, a
sua percentagem inferior a 10%. Podemos concluir que, neste caso, as condies das
simulaes no so as mais favorveis para as estratgias cooperantes: probabilidade
de mais uma iterao baixa; ganho da estratgia cooperante inferior ao perl ptima de
Pareto
12
.
Relativamente ao Give-Take, a correlao signicativa mesmo no cenrio yesplay
(as estratgias exploradoras nunca recusam) a partir de uma percentagem inicial de co-
operantes superior ao valor do ponto xo x
0
. O facto da correlao ser superior uma
validao experimental do Jogo de Recusa e do ponto xo x
0
mesmo em condies
experimentais que no seguem os pressupostos da Equao de Replicao (veja-se por
exemplo as linhas vermelhas respeitantes estrutura de populao lattice). No cenrio
predef, a correlao ou pequena ou elevada (quase 1) mas este resultado deve-se a
uma m escolha da estratgia pr-determinada. No cenrio yesplay (linhas com o sm-
bolo ) h correlao positiva: na estrutura de populao lattice quando a percentagem
inicial dos cooperantes superior a 30% e na estrutura de populao bag quando a per-
centagem inicial dos cooperantes superior a 60%. Uma das causas para a diferena
pode estar no nmero mdio de vezes que um agente joga com um parceiro. Este valor
mais alto para o caso da estrutura de populao lattice (veja-se a tabela 5.7(b)). Um
dos pressupostos da Equao de Replicao de que os agentes joguem uns contra os
outros um nmero innitamente grande de vezes.
No caso do IPD, a estratgia cooperante era representada pelo Tit-for-Tat. Ora esta
estratgia ao recusar deixa de ser EEE (recusar no uma aco racional). No cenrio
yesplay as estratgias exploradoras nunca recusam. Como os seus parmetros so alea-
trios podem surgir estratgias iguais ou parecidas com o Tit-for-Tat que conseguem ter
melhor desempenho logo esto melhor posicionadas para passarem prxima gerao.
Neste cenrio a correlao sempre negativa.
Os histogramas presentes na gura 5.12 permitem resumir os grcos que acabmos
de comentar. Para cada jogo (Give-Take comb
g
=0 e b
g
=2, IPD e Dilema do Lenhador)
foram utilizados intervalos de dimenso 0.1 para categorizar 9 2 3 2 condies.
Cada nmero corresponde a, respectivamente, percentagem inicial de cooperantes, valor
de u
RC
, cenrio e estrutura da populao.
Todos os histogramas apresentam um nmero elevado de condies em que a cor-
relao 0. Estas condies dizem respeito, na maior parte, a uma percentagem inicial
de cooperantes pequena. O IPD a excepo (veja-se os grcos respectivos na -
12
Relembramos o grco 5.7.
113
0
20
40
60
1 0.5 0 0.5 1
correlao
Histograma GiveTake (b
g
=0)
0
20
40
60
1 0.5 0 0.5 1
correlao
Histograma GiveTake (b
g
=2)
0
20
40
60
1 0.5 0 0.5 1
correlao
Histograma IPD
0
20
40
60
1 0.5 0 0.5 1
correlao
Histograma Dilema do Lenhador
Figura 5.12: Histogramas da correlao entre a utilizao ou no do Jogo de Recusa e
a presena de estratgias cooperantes na ltima gerao.
gura 5.11). O IPD apresenta mais condies com correlao negativa do que positiva.
As razes j foram referidas atrs. O Dilema do Lenhador apresenta praticamente as
mesmas condies com correlao igual a 1 como igual a 0. No entanto, tal verica-se
para os cenrios padro e predef.
Utilidade de Recusa A escolha do valor de u
RC
inuencia o ponto xo da Equao
de Replicao (2.1) dado pela expresso (4.3). Na tabela 5.16 apresentamos o valor de
u
RC
e o valor do ponto xo x
0
. Em alguns jogos o valor de u
R
AA
(presente na expresso
de x
0
) aproximado.
u
R
AA
u
J
BB
u
RC
x
0
givetake
p
r
2
p
r
+b
g
2
p
r
c
pt
c
st
2
1 0.52174
p
r
2
p
r
2
p
r
c
pt
c
st
2
1 0.5
ipd P C S1 0.66667
lenhador 1.2 0.5 1 0.40541
Tabela 5.16: Valores do ponto xo x
0
por jogo.
De acordo com os valores presentes na tabela 5.16 podamos esperar os seguintes
resultados: no jogo Give-Take quando a percentagem inicial de cooperantes fosse supe-
rior a 50% ento no m da simulao deveramos encontrar s estratgias cooperantes;
114
no jogo IPD e nas simulaes em que a percentagem inicial de cooperantes superior a
60% deveramos encontrar s estratgias cooperantes no nal da simulao.
O facto de os resultados divergirem da previso terica deve-se Equao de Re-
plicao, utilizada no clculo do ponto xo, ser uma aproximao do algoritmo evolu-
cionrio usado nas simulaes. A divergncia maior quando utilizada uma estrutura
de populao do tipo lattice onde as interaces so locais. A Equao de Replicao
assume que todas as estratgias interagem com todas as outras e na mesma proporo.
A divergncia vericada no jogo IPD deve-se s razes j anunciadas.
5.3.4 Resumo
De um modo geral, os resultados obtidos so animadores, j que nas simulaes onde
as estratgias cooperantes so colocadas com estratgias que nunca recusam (cenrio
yesplay), h simulaes em que as estratgias cooperantes esto presentes na ltima
gerao, apesar de ser necessrio uma percentagem inicial de cooperantes elevada para
tal se vericar. Este limite est em acordo com a previso terica para o valor do ponto
xo x
0
.
Nos cenrios padro e predef a estratgia cooperante tem um melhor desempenho,
pois as estratgias exploradoras tambm recusam. Faz sentido as estratgias explora-
doras recusarem se conseguirem jogar entre si. Assim poderiam ser elas as nicas a
estarem presentes na ltima gerao. Porm no analismos quais as estratgias ex-
ploradoras na ltima gerao. Poderamos ter feito parties no espao de estratgias e
contar em que parties estas estratgias exploradoras cavam. Esta anlise seria til, se
por exemplo, quisssemos analisar 2 ou mais grupos de estratgias cooperantes. O jogo
Give-Take com b
g
= 0 tem mltiplas estratgias que so ptima de Pareto (ao contrrio
do IPD) um ptimo candidato para este teste.
A expresso para o ponto xo x
0
foi obtida considerando dois grupos de estratgias.
No caso de haver mais grupos, poderemos aplicar esta expresso se considerarmos a
utilidade das estratgias do grupo A como uma mdia de todos os grupos excepto aquele
que se est a analisar.
Os resultados obtidos no cenrio predef acabaram por ser previsveis e de explica-
o fcil. A populao composta unicamente por duas estratgias cujos parmetros
so conhecidos, logo possvel calcular os ganhos que obtm quando jogam quer os
jogadores sejam iguais ou diferentes. No Give-Take, a estratgia exploradora quando
joga com a cooperante tem um ganho maior do que quando joga consigo prpria, po-
rm qualquer combinao linear destes dois ganhos sempre menor que a combinao
linear inversa dos ganhos da estratgia cooperante (quando joga consigo prpria ou com
a exploradora). No IPD a soma dos ganhos da estratgia exploradora tambm inferior
soma dos ganhos da estratgia cooperante. No Dilema do Lenhador temos a situao
inversa, a soma dos ganhos da estratgia exploradora superior soma dos ganhos da
115
estratgia cooperante. Comparativamente aos outros cenrios, o predef permitiu analisar
unicamente duas estratgias para cada jogo.
As guras e tabelas apresentadas relativas correlao entre vrias condies e a
presena de estratgias cooperantes na ltima gerao mostram que o Jogo de Recusa
e alguns dos seus parmetros contribuem para o aumento das estratgias cooperantes
na ltima gerao. No caso do jogo Dilema do Lenhador, a estratgia cooperante no
a que obtm maior ganho quando joga consigo prpria. Foi neste caso que se obser-
vou o menor aumento. Como tinha sido referido no captulo 4, o Jogo de Recusa
vantajoso para as estratgias que obtm maior ganho entre si. Podemos referir ento
que, experimentalmente, o Jogo de Recusa contribuiu para um aumento das estrat-
gias cooperantes, em determinadas condies de percentagem inicial de cooperantes, e
consequentemente para o aumento do ganho da populao como um todo.
116
Captulo 6
Consideraes Finais
Terminamos este trabalho realando os resultados mais importantes, pontos menos ex-
plorados e indicaes de trabalho futuro.
6.1 Comentrios
Neste trabalho apresentmos o jogo Give-Take que foi desenvolvido com o objectivo
de obter um jogo com a seguinte caracterstica: existncia de vrios comportamentos
cooperantes que requerem coordenao ou conana entre os agentes de modo a que
estes consigam aumentar os seus ganhos. Se dois agentes com estratgias diferentes
mas cooperantes no conseguem coordenar-se (acordo que falha), surge uma situao
de explorao.
As experincias, onde foramanalisados diversos parmetros do Algoritmo Evolucionrio
(AE) e do jogo Give-Take, levaram ao desenvolvimento de um modelo mais geral que
pudesse ser aplicado a qualquer jogo. Este desenvolvimento traduziu-se no Jogo de
Recusa que, quando aplicado a uma populao regida por um AE, aumenta as hipteses
dos agentes cooperantes resistirem aos agentes no-cooperantes.
6.1.1 Jogo Give-Take
Foi desenvolvido um jogo chamado Give-Take, no qual dois agentes partilham a posse
de um recurso vez, dando-o ou tirando-o do parceiro dependendo de quem tem o
recurso. Ao contrrio de outros, nomeadamente o Dilema do Prisioneiro Iterado (IPD),
utilizados na maior parte dos trabalhos que abordam a problemtica da cooperao, tem
vrios pers ptima de Pareto, ou seja, existem vrias estratgias cooperantes. Tal
caracterstica requer coordenao entre os agentes, que pode tomar a forma de acordos.
A existncia de vrios ciclos tesoura-papel-pedra enriquece a dinmica do jogo pois
estes ciclos envolvem diferentes pers ptima de Pareto.
117
Vamos considerar as estratgias que do o recurso em vez de o tirar. No caso em
que a aco give no d um bnus a quem a pratica, todos os pers formados por duas
estratgias iguais so pers ptima de Pareto equivalentes, ou seja, todas as estratgias
tm o mesmo ganho. Esta uma caracterstica que no est presente no IPD. No caso
em que existe um bnus por dar o recurso, os pers formados por duas estratgias iguais
so diferentes: o ganho maior quanto mais cedo se d o recurso. Em ambos os casos,
se os pers so compostos por estratgias diferentes, aquela que d o recurso mais tarde
consideramo-la como exploradora pois tem um ganho superior.
Este jogo pode ser comparado com o jogo Ultimato mas iterado em que os jogadores
trocam de papeis. No Give-Take a troca determinada pelas aces dos jogadores,
enquanto no Ultimato a troca faz parte das regras do jogo. semelhana do que foi
feito com o IPD, tambm no Give-Take podemos ter estratgias cujas aces dependem
das aces anteriores da prpria estratgia e do parceiro (utilizao de memria). O
papel, que as estratgias tm na troca de posies (ter ou no ter o recurso), algo que
pode ser explorado em trabalho futuro.
Foi apresentado um conjunto de simulaes com vista a analisar a dinmica evoluci-
onria deste jogo. Ao contrrio de problemas de optimizao, que podem ser resolvidos
atravs de algoritmos evolucionrios, a utilizao de um algoritmo evolucionrio para
analisar um jogo, no tem como objectivo optimizar uma determinada funo. O resul-
tado do algoritmo pode servir para vericar se o jogo tem alguma Estratgia Evoluci-
onariamente Estvel (EEE). Se a populao de agentes composta por uma EEE ento
no sofre alteraes durante a simulao.
6.1.2 Jogo de Recusa
O Jogo de Recusa foi desenvolvido com vista a obter um mecanismo que pudesse punir
agentes no-cooperantes. A opo escolhida permite aplicar este jogo a qualquer jogo
J . Este ter que ter uma funo de utilidade para que os agentes do Jogo de Recusa
possam classicar os parceiros com quem jogam.
Os resultados obtidos e a anlise efectuada mostram que h condies experimentais
que esto de acordo com a previso terica. Quando comparamos experincias onde
utilizado o Jogo de Recusa com experincias de controlo sem o Jogo de Recusa,
vericamos que h um aumento do nmero de estratgias cooperantes na populao.
Tal pode ser constatado atravs da correlao positiva (para essas condies) entre a
utilizao ou no do Jogo de Recusa e a presena de estratgias cooperantes na ltima
gerao das simulaes.
Os diversos valores utilizados nos parmetros relativos ao Jogo de Recusa (utilidade
u
RC
, jogos exploratrios e relao entre estratgia e tipo) no se traduziram em efeitos
claros.
No geral, o Jogo de Recusa contribui para um aumento das estratgias cooperantes
na populao. Se estas estratgias so as que obtm o maior ganho entre si, ento h um
118
aumento do ganho social. A populao em si aumenta os ganhos que obtm quando os
seus elementos jogam entre si.
Informao de Apoio
A classicao que um agente faz dos seus parceiros, depende exclusivamente dos jogos
em que participa. Esta classicao utilizada para construir um modelo dos parceiros.
Optou-se por um modelo baseado no ganho mdio, o que implica que um agente tenha
um nmero razovel de jogos para ter um modelo convel.
A deciso do agente jogar ou recusar um jogo J depende da informao que este
recolheu acerca dos parceiros com quem tem de jogar o jogo J . Com efeito, no h
nenhuma base de dados central onde a informao sobre a qualidade dos agentes
mantida e que possa ser consultada por todos os agentes.
Cada agente participa pelo menos em N jogos mas poder tambm participar se for
escolhido pelos seus vizinhos. Quer dizer que a fonte da deciso de jogar ou recusar
vem da vizinhana do agente. Numa estrutura populacional com tipologia de grelha, a
fonte efectivamente local.
No analismos quantos jogos um agente deveria fazer para ter um modelo con-
vel. Limit-nos a referir que os agentes tinham um perodo chamado de aprendizagem,
durante o qual nunca recusariam jogar um jogo com um parceiro de determinado tipo.
Jogar ou Recusar
O passo 2 do Jogo de Recusa, onde os agentes decidem se jogam ou se recusam, feito
em sincronismo: todos os agentes anunciam ao mesmo tempo. O mecanismo que ns
considermos pode ser encarado como uma votao sendo o voto secreto e guardado
por uma entidade convel por todos os agentes. Este um procedimento seguido, por
exemplo, em eleies.
Poderamos ter considerado uma vertente onde um agente anuncia a sua deciso
seguido de outro agente, at todos terem comunicado a sua deciso. No seguimos
este caminho com a justicao de que seria necessrio modelar o efeito de um agente
decidir tendo em conta que os anteriores optaram por jogar.
Se considerarmos os agentes racionais, no sentido de maximizarem a utilidade, en-
to os agentes devem jogar independentemente de serem os primeiros ou os ltimos a
anunciarem a deciso de recusar ou de jogar. Com esta assuno, de racionalidade, tanto
faz a comunicao da deciso ser assncrona como em simultneo.
Modelo Distribudo
Outro dos aspectos do Jogo de Recusa que convm frisar a sua natureza distribuda.
Na sua descrio no mencionmos nenhum repositrio central onde a informao dos
119
jogos seria guardada para consultas futuras. De igual modo, quando apresentmos as
caractersticas que os agentes necessitam, no era necessrio que todos os agentes tives-
sem que interagir com todos os outros. Podemos contrapor com a utilizao da Equao
de Replicao que assume que todos os agentes interagem com todos os outros, porm,
na anlise experimental no houve nenhuma experincia onde tal ocorresse, mesmo
numa estrutura populacional bag, onde todos os agentes podem interagir com todos os
outros.
No considermos a existncia de uma base de dados com a classicao dos agen-
tes, pois se existem agentes no-cooperantes, ento a informao que estes colocariam,
no seria de conana. Alis, o problema de um grupo de agentes chegar a um con-
senso, sob vrias condies, relativamente a uma dada informao j foi estudado sob
o nome de Generais Bizantinos. Devido s caractersticas dos nossos agentes no ne-
cessrio uma base de dados centralizada, apenas que estes interajam uns com os outros
(no necessrio que um agente interaja com todos os agentes da populao) um n-
mero suciente de vezes para que a informao, que um agente recolhe acerca dos seus
parceiros, seja vel. Esta recolha feita de modo distribudo por cada agente.
6.1.3 Jogos e Algoritmo Evolucionrio
H alguns comentrios que podem ser feitos relativamente aos resultados obtidos com o
Give-Take relacionados com a utilizao de algoritmos evolucionrios. Nos Algoritmos
Genticos o operador de sobre-cruzamento que o maior responsvel pela explorao
do espao de estratgias, enquanto o operador de mutao tem um papel secundrio
com vista a introduzir novos elementos. Nas Estratgias Evolutivas o papel destes ope-
radores inverte-se. Ora, se pretendemos analisar a dinmica de um jogo, os operadores
evolucionrios tm que gerar estratgias que possam por prova as estratgias presentes
na populao. Nas simulaes apresentadas neste trabalho, deu-se maior importncia ao
operador de mutao. No entanto, as estratgias que este operador criava, a maior parte
delas (95%) estavam relacionadas com a estratgia que tinha servido de base. Devido a
esta desvantagem, houve simulaes onde o Algoritmo Evolucionrio (AE) foi incapaz
de gerar estratgias que fossem melhores que as que estavam na populao. Serve, en-
to, como conselho em anlises futuras, que haja uma percentagem de estratgias cujos
parmetros tenham valores aleatrios. Assim no limite, ser possvel gerar todas as es-
tratgias. Este tipo de operador diferente quer da mutao quer do sobre-cruzamento.
Ele situa-se mais ao nvel do operador de seleco. Claro, que necessrio anar, que
percentagem da populao ser substituda. Se olharmos para as EE, h uma variante
representada por +. A populao composta por indivduos, so gerados indi-
vduos utilizando os operadores evolucionrios. Para a gerao seguinte so escolhidos
os melhores indivduos a partir do conjunto de + indivduos. Para aplicarmos
anlise da dinmica de um jogo, os operadores evolucionrios tm que gerar novos
indivduos que no estejam relacionados com os actuais.
120
Relativamente ao AE utilizado nas simulaes, a importncia dada ao operador de
mutao pode ser considerada discutvel. Argumentou-se que se pretendia gerar novos
agentes por gerao para testar os agentes mais aptos que passavam gerao seguinte.
Dissemos que a mutao usada, perturbava os agentes modicando-lhes os seus par-
metros numricos atravs da adio de rudo gaussiano. Esta perturbao traduz-se em
novos agentes que pertencem, em mdia, vizinhana gentica do agente que alterado.
Grande parte da anlise patente em (Hofbauer & Sigmund, 1998) assume esta mutao.
Pode-se argumentar que sendo o objectivo obter novos agentes ento a mutao deveria
utilizar rudo uniformemente distribudo.
6.1.4 Metas Alcanadas
Propusemo-nos dotar os agentes de uma populao da capacidade de detectar agentes
maliciosos e tomar medidas de modo a que a populao no seja invadida por estes agen-
tes no-cooperantes. Considermos que os agentes interagiam no contexto de um jogo
J . Apresentmos o Jogo de Recusa com o objectivo de evitar a propagao de agentes
no-cooperantes na populao e mostrmos, quer teoricamente quer experimentalmente,
as condies em que tal acontece. O algoritmo, que os agentes cooperantes utilizam, re-
quer unicamente que estes interajam uns com os outros um nmero suciente de vezes,
no necessitando de partilhar informao atravs de um repositrio centralizado.
necessrio que dois agentes interajam vrias vezes para que o Jogo de Recusa
produza resultados. No faz sentido prevenir a proliferao de agentes no-cooperantes
se dois agentes s interagem uma vez: o no-cooperante explora ou trai (conforme o
caso) o parceiro sem receio de represlias, pois nunca o voltar a encontrar. Estamos a
supor que no h disseminao de informao entre os agentes e mesmo que houvesse,
poderiam surgir situaes semelhantes ao problema dos Generais Bizantinos.
Podemos concluir que o Jogo de Recusa permite que os agentes cooperantes contro-
lem de um modo distribudo a propagao de agentes no-cooperantes numa populao
e que assim conseguimos cumprir os objectivos traados no incio desta tese.
O Jogo de Recusa foi validado experimentalmente com alguns dos jogos mais co-
mummente utilizados na literatura sobre cooperao. Como, no nosso entender, falta-
vam algumas caractersticas nesses jogos, nomeadamente inexistncia de diferentes es-
tratgias cooperativas, desenvolvemos o jogo Give-Take que tem a caracterstica nica
de existirem diferentes estratgias cooperativas (com o mesmo ganho ou no). Este
facto produz um dinmica populacional mais rica.
6.1.5 Trabalhos Publicados e Aplicaes Desenvolvidas
No advento desta tese foram publicados um conjunto de trabalhos que passamos a des-
crever:
121
(Mariano & Correia, 2002b; Mariano & Correia, 2002a; Mariano & Correia,
2003) Nestes trabalhos apresentado o jogo Give-Take e contm principalmente
simulaes computacionais que demonstram a dinmica do jogo e um estudo de
quais os parmetros que inuenciam o desempenho das estratgias cooperantes.
(Mariano & Correia, 2004) Este trabalho uma apresentao do Jogo de Recusa
onde referido qual deve ser a percentagem mnima de cooperantes numa popu-
lao para que estes resistem s estratgias no-cooperantes.
Foi desenvolvido um conjunto de aplicaes de suporte ao jogo Give-Take. Estas
aplicaes permitem observar a dinmica do jogo e comparar diferentes estratgias. Foi
desenvolvido um programa para gerir as simulaes computacionais denominado Sim-
Batch que permite especicar quais os parmetros a utilizar e o nmero de avaliaes a
efectuar, guardar os resultados das vrias simulaes, entre outras tarefas. Todas estas
aplicaes esto disponveis tanto no CD que acompanha esta tese como no seguinte
endereo: http://labmag.di.fc.ul.pt/plsm/research/givetake/.
6.2 Trabalho Futuro
Na seco anterior resumimos e comentmos as principais contribuies desta tese. No
entanto, h um conjunto de pontos que podem ser melhorados ou expandidos em traba-
lho futuro.
J referimos a Corrida de Armas na seco 2.2.4 quando falmos de AE. Relativa-
mente ao operador de mutao tem havido um debate na Biologia sobre como que a
Evoluo procede, se por passos pequenos (Dawkins, 1986) (o novo indivduo seme-
lhante ao que alterado) ou se por passos grandes (Gould, 2000). A simulao com-
putacional permite avaliar a plausibilidade biolgica ou sociolgica de modelos pelo
que interessante examinar o impacto de um operador de mutao baseado em rudo
uniformemente distribudo. Claro que neste caso no teramos um operador de mutao
no sentido clssico dos AEs. O ciclo de um AE passaria a contar com um passo onde,
com uma dada probabilidade, uma proporo da populao seria substituda por agentes
completamente novos.
O Jogo de Recusa foi desenvolvido em primeiro lugar tendo em mente o tratamento
dos acordos entre os agentes. A quebra implicava que o agente trado no iria querer
interagir mais com quem o traiu. Em vez da recusa implicar um ganho u
RC
, podia
afectar a vizinhana do agente, V
i
, e assim a estrutura da populao variava durante uma
gerao. Deixvamos de ter uma estrutura do tipo bag ou lattice. A estrutura presente
no m da gerao iria inuenciar a aplicao dos operadores evolucionrios.
122
6.2.1 Give-Take
Mencionmos no captulo 2 a existncia de estratgias com memria. Neste trabalho s
foram utilizadas estratgias reactivas. semelhana do que foi feito com o IPD, tambm
poderemos analisar a vantagem da memria na dinmica deste jogo. A utilizao de
memria permite aumentar a complexidade do comportamento dos agentes.
A existncia de mltiplos pers ptima de Pareto (iguais ou diferentes) pode ser
analisada em conjunto com o Jogo de Recusa. Podemos ter uma populao composta
unicamente por este tipo de estratgias e examinar, atravs de um AE, qual delas que
est presente na ltima gerao. Isto seria uma extenso da expresso (4.3) para o ponto
xo x
0
a mltiplos grupos.
6.2.2 Comunicao
No abordmos a possibilidade de os agentes transmitirem os dados que possuem sobre
o tipo dos agentes. No entanto, os problemas da rea dos SD j abordaram algumas
das questes que poderiam ocorrer quando os agentes pretendem chegar a um acordo
sobre um determinado tipo de agentes. Se este tipo estiver associado a agentes no-
cooperantes, do interesse destes que a sua identidade no seja revelada, pelo que ten-
taro enganar os outros agentes. Esta uma situao onde se pode aplicar o problema
dos Generais Bizantinos.
6.2.3 Algoritmos Evolucionrios e Jogos
A combinao de AE com a TJ no intuito de analisar a dinmica de um jogo no tem um
algoritmo vocacionado para tal tarefa. Geralmente, esta combinao surge sob o nome
de co-evoluo. Nos trabalhos classicados como tal, surgem com frequncia duas
populaes (trata-se de jogos a 2-jogadores) em que indivduos das duas populaes so
emparelhados num jogo. Apesar de usarmos o termo Jogo, este pode ser uma simulao
de um robot ou uma experincia com dois robots (Nol & Floreano, 1998). Mesmo
nos trabalhos onde no surge o termo co-evoluo, aplica-se um AG (operador de sobre-
cruzamento valorizado em detrimento do operador de mutao, fase de avaliao dos
indivduos seguida de fase de seleco).
Nestes trabalhos, as vrias fases de um AG num ciclo esto sincronizadas: primeiro
vem a fase de avaliao, seguida da fase de seleco de indivduos para a nova gerao.
Ao longo da simulao no h alteraes nos potenciais parceiros dos vrios indivduos.
Podemos estender a noo apresentada no captulo 5 relativa populao. Esta
foi representada por um grafo em que cada n corresponde a um agente e cada arco
direccionado representa um potencial parceiro no jogo, um potencial adversrio na fase
de seleco e um potencial indivduo a ser aplicado um operador de sobre-cruzamento.
123
A extenso pode ser feita com tantos grafos quantas as operaes que envolvem grupos
de agentes e tornando assncrona a seleco da nova gerao.
Seleco Cada agente tem um relgio prprio que indica a altura em que calculado o
agente da prxima gerao. aplicado o operador de seleco utilizando o grafo
respectivo, seguido do operador de sobre-cruzamento e o seu grafo respectivo.
Por m aplicado o operador de mutao e o novo agente toma o lugar do agente
antigo em todos os grafos.
Interaco Relativamente ao Jogo de Recusa, a recusa pode ser traduzida pela quebra
de arcos. O agente que recusa jogar com determinado parceiro v desaparecer os
arcos que os ligam. Com esta extenso, podem surgir agentes que no tenham
ningum com quem interagir. Isto pode ser tratado basicamente de dois modos:
um agente que chega a este estado retirado da populao; ciclicamente so cria-
dos novos arcos para permitir que tantos estes agentes como os restantes possam
interagir com agentes novos. A segunda soluo pode trazer discrepncias na fase
de seleco de agentes. Um agente que s participou num jogo no qual obteve um
ganho elevado (explorou outro agente) tem vantagem sobre um agente que parti-
cipou em vrios jogos mas teve ganhos mais baixos (cooperou com os parceiros
para dividir os ganhos). A primeira soluo pode provocar uma extino se no
houver um mecanismo que faa crescer a populao. Este mecanismo acrescenta
mais um grau de complexidade discusso que estamos a ter.
Sobre-cruzamento e Seleco A existncia de dois grafos para estes dois operadores,
serve para fazer a diferenciao entre parceiros sexuais e competidores por um
espao na populao. Quanto mais arcos de seleco um agente tem, maiores so
as hipteses da sua estratgia se espalhar pela populao.
124
Apndice A
Give-Take
A.1 Notas sobre as expresses
Vamos apresentar como foi feito o clculo das expresses dos ganhos por iterao dos
agentes. Vamos supor que os agentes do o recurso ao m de t
g
iteraes. O procedi-
mento o mesmo, caso os agentes usem outras estratgias. Assim, ao m de 2t
g
ambos
os agentes acumularam:
t
g
p
r
+b
g
em 2t
g
Ao m de t
/
iteraes, em que t
/
um mltiplo de 2t
g
, os ganhos so os mesmos e
iguais a:
t
/
2t
g
(t
g
p
r
+b
g
) em t
/
Para um nmero arbitrrio de iteraes, t, se tomarmos t
/
como sendo o maior ml-
tiplo de 2t
g
no maior que t, a expresso do ganho :
t
/
2t
g
(t
g
p
r
+b
g
) +x p
r
+y0+zb
g
em t
em que os valores de x, y e z dependem do agente, quem nas ltimas x +y iteraes
cou mais tempo com o recurso e quem o deu (ou no).
Para um valor de t sucientemente alto, a expresso prvia pode ser aproximada por:
t
2t
g
(t
g
p
r
+b
g
)
no que resulta o seguinte ganho por iterao:
1
2
(p
r
+
b
g
t
g
)
125
Para o caso geral de duas estratgias s
1
= (t
1
g
, t
1
t
) e s
2
= (t
2
g
, t
2
t
), o ganho por iterao
depende das relaes entre os pares de parmetros (t
1
g
, t
2
t
) e (t
1
t
, t
2
g
). O ganho por iterao
da estratgia s
1
:
1
t
1
r
+t
1
r
(t
1
r
p
r
+F)
em que os valores de t
1
r
, t
1
r
e F dependem das relaes anteriores.
A.2 Ganho por iterao
Na expresso (3.8) os valores de t
1
r
, t
1
r
e F
1
dependem da relao entre as estratgias
s
1
= (t
1
g
, t
1
t
) e s
2
= (t
2
g
, t
2
t
). A tabela A.1 apresenta o valor dos parmetros t
i
r
e t
i
r
. Note-
se que t
1
r
= t
2
r
e t
2
r
= t
1
r
. A tabela A.2 apresenta o valor do parmetro F
1
. O valor do
parmetro F
2
pode ser calculado invertendo a tabela ao longo da diagonal principal.
t
1
g
t
2
t
t
1
r
t
2
r
< t
1
g
= t
1
g
> t
2
t
t
1
t
t
2
g
t
1
r
t
2
r
> t
2
g
= t
1
t
< t
1
t
Tabela A.1: Valor de t
i
r
e de t
i
r
.
t
1
g
<t
2
t
t
1
g
=t
2
t
t
1
g
>t
2
t
t
1
t
>t
2
g
A b
g
B
/
b
g
c
st
C
/
c
st
t
1
t
=t
2
g
B b
g
c
pt
D b
g
c
pt
c
st
E
/
c
pt
c
st
t
1
t
>t
2
g
C b
g
c
pt
E b
g
c
pt
c
st
F c
pt
c
st
Tabela A.2: Valor do parmetro F
1
.
126
Apndice B
Recusa
Neste apndice vamos demonstrar como obtivemos algumas expresses e inequaes
presentes no captulo 4, nomeadamente, o valor da expresso (4.3) na pgina 58 e as
inequaes (4.5) e (4.6) presentes na pgina 61.
B.1 Ponto xo x
0
A expresso (4.3) representa o valor do ponto xo da Equao de Replicao a qual
apresentamos por comodidade, onde x representa proporo de agentes do tipo A:
dx
dt
= x(1x)(u
R
A
u
R
B
)
A expresso (4.3) resultou de um zero da expresso u
R
A
u
R
B
. O valor das utilidades
u
R
A
e u
R
B
depende do tipo de interaco entre os agentes. Supondo que estas dependem
linearmente com x, as utilidades podem ser escritas das seguinte forma:
u
R
A
= xu
R
AA
+(1x)u
R
AB
u
R
B
= (1x)u
R
BB
+xu
R
BA
Substituindo estes valores na expresso e igualando a zero obtemos a seguinte equa-
o:
xu
R
AA
+(1x)u
R
AB
(1x)u
R
BB
xu
R
BA
= 0
O zero desta equao resulta na expresso (4.3).
Resoluo
xu
R
AA
+u
R
AB
xu
R
AB
u
R
BB
+xu
R
BB
xu
R
BA
= 0
127
x(u
R
AA
u
R
AB
+u
R
BB
u
R
BA
) +u
R
AB
u
R
BB
= 0
x(u
AA
u
AB
+u
BB
u
BA
) =u
AB
+u
BB
x =
1
u
AA
u
AB
+u
BB
u
BA
u
AB
+u
BB
x =
1
1+
u
R
AA
u
R
BA
u
R
BB
u
R
AB
Por denio e assumindo que no h erros de classicao, sempre que umagente B
joga com um agente A, recusa o jogo, logo as utilidades u
R
BA
e u
R
AB
so iguais a u
RC
e
sempre que os agentes B jogam entre si, nunca recusam, logo a utilidade u
R
BB
igual a
u
J
BB
. Daqui sai o valor nal do ponto xo x
0
:
x
0
=
1
1+
u
R
AA
u
RC
u
J
BB
u
RC
B.2 Condies para as propores
1
e
2
As inequaes (4.5) e (4.6) resultam da substituio das expresses presentes na ta-
bela 4.1 nas seguintes inequaes:
u
R
AA
u
R
BA
> 0
u
R
AB
u
R
BB
< 0
Para a primeira inequaes temos os seguintes passos:
u
R
AA
u
R
BA
> 0 u
J
AA
(1)u
RC

1
u
J
BA
> 0

1
<
u
J
AA
u
RC
u
J
BA
u
RC
128
Para segunda inequao temos os seguintes passos:
u
R
AB
u
R
BB
< 0 (1
1
)u
RC
+
1
u
J
AB

2
u
RC
(1
2
)u
J
BB
< 0

u
J
AB
u
RC
u
J
BB
u
RC

1
+
2
< 1
129
Apndice C
Aplicaes Desenvolvidas
Vamos descrever neste apndice algumas aplicaes desenvolvidas para suportar as si-
mulaes efectuadas neste trabalho. As aplicaes referidas neste apndice esto dispo-
nveis no seguinte endereo: http://labmag.di.fc.ul.pt/plsm/research/.
A seco C.2 descreve a biblioteca de suporte ao algoritmo evolucionrio aplicado
aos jogos. A seco C.3 descreve a aplicao que permite gerir um conjunto de simula-
es.
C.1 Jogo Give-Take
Para a anlise do jogo Give-Take foi desenvolvido uma aplicao que permite comparar
at quatro jogos em simultneo ou analisar a dinmica do jogo.
No primeiro modo de utilizao possvel especicar os valores dos parmetros que
compem as matrizes e as estratgias a utilizar no jogo. As estratgias utilizadas pelos
jogadores representam o nmero de iteraes em que um jogador tem o recurso antes
de o dar ao parceiro e em que est sem o recurso antes de o tirar ao parceiro.
C.2 Jogos Evolucionrios
Foi desenvolvido uma biblioteca em C++ denominada evogame que contm classes
para correr um algoritmo evolucionrio aplicado a jogos. Esta biblioteca foi inspirada
em parte pela biblioteca gaLib (Wall, 2000) no que toca ao diagrama de classes.
As classes esto divididas em 5 principais conjuntos:
Jogador Este conjunto contm uma nica classe que permite representar um jogador.
Esta classe contm mtodos que permitem gerir os jogos efectuados e os ganhos
obtidos por um jogador.
131
Jogo Este conjunto contm uma nica classe que permite representar um jogo. Esta
classe necessita de ser herdado pois dene um mtodo abstracto que chamado
pelo algoritmo para calcular o resultado de um jogo dado um conjunto de jogado-
res.
Populao As classes que pertencem a este conjunto representam a estrutura da popu-
lao. A estrutura dene com que que um jogador pode jogar, com quem que
um jogador compete aquando da fase de seleco do algoritmo evolucionrio e
com que o jogador pode ser cruzado (operador de sobre-cruzamento).
Algoritmo Este conjunto contm uma nica classe que representa o algoritmo evolu-
cionrio. Esta classe constitui o ncleo central. Os utilizadores desta biblioteca
podem utilizar esta classe tal como est necessitando apenas de denir a popula-
o, o jogo e os operadores de mutao, seleco e de interaco.
Diversos Deixamos para ltimo as classes que dizem respeito congurao e ob-
teno de estatsticas. Esta biblioteca pode escrever cheiros com os seguintes
dados por gerao: ganhos dos jogadores, ganhos da populao, nmero de jogos
de cada jogador, tempo de vida dos jogadores, estrutura da populao. Como a
estrutura da populao esttica, o ltimo dado s escrito uma vez.
C.3 Gesto de Simulaes
A parte experimental deste trabalho foi dominada por simulaes computacionais onde
foram variados diversos parmetros. Tornou-se necessrio automatizar o processo de
correr uma aplicao em diversas condies. A aplicao SimBatch foi desenvolvida
tendo em mente um conjunto de parmetros com diversos valores, um programa que
corrido e um conjunto de cheiros de entrada e de sada que o programa, respectiva-
mente, necessita e produz.
Inicialmente as simulaes eram feitas recorrendo a um script Unix. Nesta pri-
meira verso era possvel atravs da edio do script alterar os parmetros, a criao
do cheiro de entrada e o destino a dar aos cheiros de sada. Posteriormente foi de-
senvolvido uma aplicao em C++ com uma interface reduzida e bastante focada no
jogo Give-Take. Era possvel especicar quais os valores dos parmetros que deviam
ser testados. Outro uso que foi dado a esta segunda verso foi o tratamento posterior
dos resultados do jogo Give-Take, quer para gerar um conjunto de grcos quer para
fazer anlise de clustering. A terceira verso desta aplicao foi desenvolvida inteira-
mente em Java. A interface permitia a alterao dos parmetros, programa a correr, a
edio de um cheiro de congurao da simulao e gesto dos cheiros produzidos
pelo programa. Esta verso permitia a gesto de um segundo programa que processava
os cheiros produzidos pelo primeiro programa.
132
A aplicao actual partiu de uma re-estruturao da verso anterior. A principal
alterao foi a introduo do conceito de lote de programa que necessita de cheiros de
entrada e produz cheiros de sada. Podem-se encadear vrios lotes o que permite que
os cheiros de sada de um lote possam ser usados como cheiros de entrada do lote
que se segue.
133
Bibliograa
ACKLEY, D., & LITTMAN, M. 1994. Altruism in the evolution of cooperation. In:
BROOKS, RODNEY A., & MAES, PATTIE (eds), Articial Life IV: Proceedings of the
4th International Workshop on the Synthesis and Simulation of Living Systems. MIT
Press.
ADAMI, CHRIS. 2002. Ab Initio Modeling of Ecosystems with Articial Life. Natural
Resource Modeling, 15, 133145.
ADAMI, CRISTOPH, BELEW, RICHARD K., KITANO, HIROAKI, & TAYLOR, CHAR-
LES E. (eds). 1998. Articial Life VI. MIT Press.
AKIYAMA, EIZO, & KANEKO, KUNIHIKO. 1997. Evolution of Communication and
Strategies in an Iterated Three-Person Game. In: (Langton & Shimohara, 1997).
AKIYAMA, EIZO, & KANEKO, KUNIHIKO. 2000a. Dynamical systems game theory
and dynamics of games. Physica D, 147, 221258.
AKIYAMA, EIZO, & KANEKO, KUNIHIKO. 2000b. Evolution of Cooperation in Social
Dilemma - Dynamical Systems Game Approach. In: (Bedau et al., 2000).
ALEXANDER, J. MCKENZIE. 2000. Articial Justice. In: (Bedau et al., 2000).
ANDERLINI, LUCA. 1999. Communication, Computability, and Common Interest
Games. Games and Economic Behavior, 27(1), 137.
ANDREONI, JAMES, BROWN, PAUL M., & VESTERLUND, LISE. 2002. What Makes
an Allocation Fair? Some Experimental Evidence. Games and Economic Behaviour,
40, 124.
ARITA, TAKAYA, & KOYAMA, YUHJI. 1998. Evolution of Linguistic Diversity in a
Simple Communication System. In: (Adami et al., 1998).
ARVAN, LANNY, CABRAL, LUIS, & SANTOS, VASCO. 1999. Meaningful cheap talk
must improve equilibrium payoffs. Mathematical Social Sciences, 37, 97106.
135
ASHRI, RONALD, & LUCK, MICHAEL. 2003. On Identifying and Managing Relati-
onships in Multi-Agent Systems. Pages 743748 of: GOTTLOB, GEORG, & WALSH,
TOBY (eds), IJCAI. Morgan Kaufmann.
AXELROD, R. 1986. An Evolutionary Approach to Norms. American Political Science
Review, 80(4), 10951111.
AXELROD, ROBERT. 1984. The Evolution of Cooperation. Basic Books.
AXELROD, ROBERT (ed). 1997a. The Complexity of Cooperation: Agent-Based Mo-
dels of Competition and Collaboration. Princeton Studies in Complexity. Princeton
University Press.
AXELROD, ROBERT. 1997b. Promoting Norms. In: (Axelrod, 1997a).
BANERJEE, BIKRAMJIT, MUKHERJEE, RAJATISH, & SEN, SANDIP. 2000. Learning
Mutual Trust. Pages 914 of: Working Notes of AGENTS-00 Workshop on Deception,
Fraud and Trust in Agent Societies.
BAZZAN, ANA, BORDINI, RAFAEL, & CAMPBELL, JOHN. 1998. Moral Sentiments
in Multi-Agent Systems. In: (Mller et al., 1998).
BEAUFILS, BRUNO, DELAHAYE, JEAN-PAUL, & MATHIEU, PHILIPPE. 1997. Our
Meeting with Gradual: A Good Strategy for the Iterated Prisoners Dilemma. In:
(Langton & Shimohara, 1997).
BEDAU, MARK A., MCCASKILL, JOHN S., PACKARD, NORMAN H., & RASMUS-
SEN, STEEN (eds). 2000. Articial Live VII: Proceedings of the Seventh International
Conference on Articial Life. MIT Press.
BERG, JOYCE, DICKHAUT, JOHN, & MCCABE, KEVIN. 1995. Trust, Reciprocity,
and Social History. Games and Economic Behaviour, 10, 122142.
BIRK, ANDREAS. 2001. Learning to Trust. Pages 133144 of: FALCONE, RINO,
SINGH, MUNIDAR, & TAN, YAO-HUA (eds), Deception, Fraud and Trust in Agent
Societies. Lecture Notes on Articial Intelligence, vol. 2246. Springer-Verlag.
BLACKWELL, DAVID, & GIRSHICK, M A. 1979. Theory of Games and Statistical
Decisions. Dover. republished from 1954 John Wiley & Sons.
BLUME, ANDREAS. 1998. Communication, Risk, and Efciency in Games. Games
and Economic Behavior, 22(2), 171202.
BOSSERT, WALTER, BRAMS, STEVEN J., & KILGOUR, D. MARC. 2002. Coope-
rative vs non-cooperative truels: little agreement, but does that matter? Games and
Economic Behaviour, 40(X), 185202.
136
BOYD, R, & RICHERSON, P J. 1988. The evolution of reciprociy in sizable groups.
Journal of Theoretical Biology, 132(3), 337356.
BOYD, R, & RICHERSON, P J. 1992. Punishment allows the evolution of cooperation
(or anything else) in sizable groups. Ethology and Sociobiology, 13, 171195.
BOYD, ROBERT, & RICHERSON, PETER J. 2001. Group Benecial Norms Can
Spread Rapidly in a Structured Population. Submitted to Journal of Theoretical Bi-
ology, April 2001.
BRANDTS, JORDI, & FIGUERAS, NEUS. 2003. An exploration of reputation for-
mation in experimental games. Journal of Economic Behavior & Organization, 50,
89115.
BREMBS, BJRN. 1996. Chaos, cheating and cooperation: potential solutions to the
prisoners dilemma. Oikos, 76(1), 1424.
BRENNER, THOMAS, & WITT, ULRICH. 2003. Melioration learning in games with
constant and frequency-dependent pay-offs. Journal of Economic Behavior & Orga-
nization, 50, 429448.
BUDESCU, DAVID V., RAPOPORT, AMNON, & SULEIMAN, RAMZI. 1995. Common
Pool Resource Dilemmas under Uncertainty: Qualitative Tests of Equilibrium Soluti-
ons. Games and Economic Behaviour, 10(1), 171201.
BULLOCK, SETH. 1998. A Continuous Evolutionary Simulation Model of the Attai-
nability of Honest Signalling Equilibria. In: (Adami et al., 1998).
BURNHAM, TERENCE C. 2003. Engineering altruism: a theoretical and experimental
investigation of anonymity and gift giving. Journal of Economic Behavior & Organi-
zation, 50(X), 133144.
BURTON, ANTHONY, & SEFTON, MARTIN. 2004. Risk, pre-play communication and
equilibrium. Games and Economic Behaviour, 46(X), 2340.
CASTELFRANCHI, CRISTIANO. 1995. Guarantees for Autonomy. Pages 5670 of:
WOOLDRIDGE, MICHAEL J., & JENNINGS, NICHOLAS R. (eds), Intelligent Agents.
Lecture Notes in Computer Science, vol. 890. Springer-Verlag.
CASTELFRANCHI, CRISTIANO. 1997. To be or not to be an agent. Pages 3740 of:
MLLER, JRG P, WOOLDRIDGE, MICHAEL J, & JENNINGS, NICHOLAS R. (eds),
Intelligent Agents III. Lecture Notes in Computer Science, vol. 1193. Springer-Verlag.
CHARNESS, GARY. 2000. Self-Serving Cheap Talk: A Test Of Aumanns Conjecture.
Games and Economic Behaviour, 33(X), 177194.
137
CHARNESS, GARY, & HARUVY, ERNAN. 2002. Altruism, equity, and reciprocity
in a gift-exchange experiment: an encompassing approach. Games and Economic
Behaviour, 40(X), 203231.
CONTE, ROSARIA, & CASTELFRANCHI, CRISTIANO. 2001. Are Incentives Good
Enough to Achieve (Info) Social Order? In: (Conte & Dellarocas, 2001).
CONTE, ROSARIA, & DELLAROCAS, CHRYSANTHOS (eds). 2001. Social Order in
MultiAgent Systems. Multiagent Systems, Articial Societies and Simulated Organi-
zations. Kluwer Academic.
CONTE, ROSARIA, CASTELFRANCHI, CRISTIANO, & DIGNUM, FRANK. 1998. Au-
tonomous Norm Acceptance. In: (Mller et al., 1998).
COOPER, DAVID J., & STOCKMAN, CAROL KRAKER. 2002. Fairness and learning:
an experimental examination. Games and Economic Behaviour, 41(X), 2645.
COX, JAMES C. 2004. How to identify trust and reciprocity. Games and Economic
Behaviour, 46(2), 260281.
CROSON, RACHEL, BOLES, TERRY, & MURNIGHAN, J. KEITH. 2003. Cheap talk in
bargaining experiments: lying and threats in ultimatum games. Journal of Economic
Behavior & Organization, 51(2), 143159.
DALE, DONALD J., MORGAN, JOHN, & ROSENTHAL, ROBERTW . 2002. Coordina-
tion through Reputations: ALaboratory Experiment. Games and Economic Behaviour,
38(X), 5288.
DAWKINS, RICHARD. 1986. O Relojoeiro Cego. Gradiva.
DE LA MAZA, MICHAEL, O

GU S, AYLA, & YURET, DENIZ. 1998. How Do Firms
Transition between Monopoly and Competitive Behavior? An Agent-Based Economic
Model. In: (Adami et al., 1998).
DELLAROCAS, CHRYSANTHOS. 2002. Goodwill Hunting: An economically efcient
online feedback mechanism in environments with variable product quality. In: (Fal-
cone & Korba, 2002).
DI PAOLO, EZEQUIEL. 1997. An Investigation into the Evolution of Communication.
Adaptive Behavior, 6(2), 285324.
DUFFY, JOHN, & FELTOVICH, NICK. 2002. Do Actions Speak Louder Than Words?
An Experimental Comparison of Observation and Cheap Talk. Games and Economic
Behaviour, 39, 127.
138
FALCONE, RINO, & KORBA, LARRY (eds). 2002. 5th Workshop on Deception, Fraud
and Trust in Agent Societies.
FLENTGE, FELIX, POLANI, DANIEL, & UTHMANN, THOMAS. 2000. On the Emer-
gence of Possession Norms in Agent Societies. In: (Bedau et al., 2000).
FOGEL, DAVID B. 1995. Evolutionary Computation: Toward a New philosophy of
machine intelligence. IEEE Press.
FROHLICH, NORMAN, & OPPENHEIMER, JOE. 1998. Some consequences of e-mail
vs. face-to-face communication in experiment. Journal of Economic Behavior & Or-
ganization, 35(3), 389403.
FUDENBERG, DREW, & TIROLE, JEAN. 1991. Game Theory. MIT Press.
GINTIS, HERBERT. 2000. Game Theory Evolving - A problem-centered introduction
to modeling strategic interaction. Princeton University Press.
GMYTRASIEWICZ, PIOTR J., & DURFEE, EDMUND H. 1995. A Rigorous, Operati-
onal Formalization of Recursive Modeling. Pages 125132 of: LESSER, VICTOR, &
GASSER, LES (eds), Proceedings of the First International Conference on Multiagent
Systems. MIT Press.
GMYTRASIEWICZ, PIOTR J., & DURFEE, EDMUND H. 2001. Rational Communi-
cation in Multi-Agent Environments. Autonomous Agents and Multi-Agent Systems
Journal, 4(3), 233272.
GOLDBERG, DAVID E. 1989. Genetic Algorithms in Search, Optimization & Machine
Learning. Addison-Wesley.
GOULD, STEPHEN JAY. 2000. O Polegar do Panda. 2 edn. Gradiva.
GROSZ, BARBARA J., KRAUS, SARIT, SULLIVAN, DAVID G., & DAS, SANMAY.
2002. The inuence of social norms and social consciousness on intention reconcilia-
tion. Articial Intelligence, 142, 147177.
GTH, WERNER, KLIEMT, HARMUT, & OCKENFELS, AXEL. 2003. Fairness ver-
sus efciency An experimental study of (mutual) gift giving. Journal of Economic
Behavior & Organization, 50(x), 465475.
HALPERN, JOSEPH Y. 2004. A computer scientist looks at game theory. Games and
Economic Behavior, 45(1), 114131.
HARVEY, INMAN. 1992a. Evolutionary Robotics and SAGA: the case for Hill Cra-
wling and Tournament Selection. CSRP 222. School of Cognitive and Computing
Science, University of Sussex.
139
HARVEY, INMAN. 1992b. Species Adaptation Genetic Algorithms: A Basis for a Con-
tinuing SAGA. Tech. rept. CSRP221. School of Cognitive and Computing Science,
University of Sussex.
HAUSER, MARC D. 1997. The Evolution of Communication. MIT Press.
HOFBAUER, JOSEF, & SIGMUND, KARL. 1998. Evolutionary Games and Population
Dynamics. Cambridge University Press.
HOLLAND, JOHN. 1975. Adaptation in Natural and Articial Systems. University of
Michigan.
HUCK, STEFFEN, & OECHSSLER, JORG. 1999. The Indirect Evolutionary Approach
to Explaining Fair Allocations. Games and Economic Behaviour, 28, 1324.
ITO, AKIRO. 1997. How do Selsh Agents Learn to Cooperate? In: (Langton &
Shimohara, 1997).
JACOBSEN, HANS JRGEN, JENSEN, MOGENS, & SLOTH, BIRGITTE. 2001. Evolu-
tionary Learning in Signalling Games. Games and Economic Behaviour, 34, 3463.
JENNINGS, NICHOLAS R., SYCARA, KATIA, & WOOLDRIDGE, MICHAEL. 1998. A
Roadmap of Agent Research and Development. Autonomous Agents and Multi-Agent
Systems, 1, 275306.
JENNINGS, NICK R. 1996. Coordination Techniques for Distributed Articial Intelli-
gence. Pages 187210 of: OHARE, GREG, & JENNINGS, NICK (eds), Foundations
of Distributed Articial Intelligence. John Wiley and Sons.
KEARNS, MICHAEL, LITTMAN, MICHAEL L., & SINGH, SATINDER. 2001. Graphi-
cal models for game theory. Pages 253260 of: Proceedings of the Conference on
Uncertainty in Articial Intelligence.
KEPHART, JEFFREY O., HANSON, JAMES E., & SAIRAMESH, JAKKA. 1998. Price-
war Dynamics in a Free-Market Economy of Software Agents. In: (Adami et al.,
1998).
KOZA, JOHN R. 1992. Genetic Programming: on the programming of computers by
means of natural selection. Complex Adaptive Systems. MIT Press.
LAMPORT, LESLIE, SHOSTAK, ROBERT, & PEASE, MARSHALL. 1982. The Byzan-
tine Generals Problem. ACM Transactions on Programming Languages and Systems,
4(3), 382401.
140
LANGTON, CHRISTOPHER G., & SHIMOHARA, KATSUNORI (eds). 1997. Articial
Live V: Proceedins of the Fifth International Workshop on the Synthesis and Simulation
of Living Systems. MIT Press.
LEVY, STEVEN. 1992. Articial Life, the quest for a new creation. New York:
Pantheon Books.
LINDGREN, KRISTIAN, & NORDAHL, MATS G. 1994. Cooperation and Community
Structure in Articial Ecosystems. Articial Life, 1(1/2), 1537.
LPEZ, FABIOLA LPEZ, LUCK, MICHAEL, & DINVERNO, MARK. 2002. Cons-
training Autonomy through Norms. Pages 674681 of: CASTELFRANCHI, CRIS-
TIANO, & JOHNSON, W. LEWIS (eds), Proceedings of the First International Joint
Conference on Autonomous Agents and Multiagent Systems. ACM Press.
MACLENNAN, BRUCE J., & BURGHARDT, GORDON M. 1993. Synthetic Ethology
and the Evolution of Cooperative Communication. Adaptive Behavior, 2(2), 161188.
MARIANO, PEDRO, & CORREIA, LUS. 2002a. The Effect of Agreements in a
Game with Multiple Strategies for Cooperation. Pages 375378 of: STANDISH, RUS-
SELL K., BEDAU, MARK A., & ABBASS, HUSSEIN A. (eds), Articial Life VIII.
MIT Press.
MARIANO, PEDRO, & CORREIA, LUS. 2002b. A Game to Study Coordination and
Cooperation. In: (Falcone & Korba, 2002).
MARIANO, PEDRO, & CORREIA, LUS. 2003. A Resource Sharing Model to Study
Social Behaviours. Pages 8488 of: PIRES, FERNANDO MOURA, & ABREU, SAL-
VADOR (eds), Progress in Articial Intelligence - 11th Portuguese Conference on Ar-
ticial Intelligence, EPIA 2003. Springer-Verlag.
MARIANO, PEDRO, & CORREIA, LUS. 2004. Identication and punishing of non-
cooperative strategies. Presented at the Second World Congress of the Game Theory
Society.
MARSHALL, JAMES A R, & ROWE, JONATHAN E. 2000. Investigating the Me-
chanisms Underlying Cooperation in Viscous Population Multi-Agent Systems. In:
(Bedau et al., 2000).
MAYNARD SMITH, JOHN. 1982. Evolution and the Theory of Games. Cambridge
University Press.
MCCABE, KEVIN A., RASSENTI, STEPHEN J., & SMITH, VERNON L. 1998. Reci-
procity, Trust, and Payoff Privacy in Extensive FormBargaining. Games and Economic
Behaviour, 24, 1024.
141
MILLER, GEOFFREY E. 1995. Articial life as theoretical biology: how to do real
science with computer simulation. Cognitive science research paper 378. School of
Cognitive and Computing Sciences, University of Sussex, Brighton, UK.
MISEVIC, DUSAN, LENSKI, RICHARD E., & OFRIA, CHARLES. 2004. Sexual re-
producation and Mullers ratchet in digital organisms. Pages 340345 of: POLLACK,
JORDAN, BEDAU, MARK A., HUSBANDS, PHIL, IKEGAMI, TAKASHI, & WATSON,
RICHARD A. (eds), Articial Life IX: Proceedings of the 9th International Conference
on the Synthesis and Simulation of Living Systems. MIT Press.
MISEVIC, DUSAN, OFRIA, CHARLES, & LENSKI, RICHARD E. 2006. Sexual re-
production reshapes the genetic architecture of digital organisms. Proceedings of the
Royal Society: Biological Sciences, 273(1585), 457464.
MORN, FEDERICO, MORENO, ALVARO, MERELO, JUAN JULIN, & CHACN,
PABLO (eds). 1995. Advances in Articial Life. Lecture Notes in Computer Science,
vol. 929. Springer-Verlag.
MORENO, DIEGO, & WOODERS, JOHN. 1998. An Experimental Study of Communi-
cation and Coordination in Noncooperative Games. Games and Economic Behaviour,
24, 4776.
MLLER, JRG P., SINGH, MUNINDAR P., & RAO, ANAND S. (eds). 1998. In-
telligent Agents V: Agent Theories, Architectures, and Languages. Lecture Notes in
Computer Science, vol. 1555. Springer-Verlag.
MUNIER, BERTRAND, & ZAHARIA, COSTIN. 2003. HIGH STAKES AND ACCEP-
TANCE BEHAVIOR IN ULTIMATUM BARGAINING: A contribution from an in-
ternational experiment. Theory and Decision, 53, 187207.
NILSSON, NILS. 1998. Articial Intelligence: a New Synthesis. Morgan Kaufman.
NOBLE, JASON. 1998. Tough Guys Dont Dance: Intention Movements and the Evo-
lution of Signalling in Animal Contests. In: PFEIFER, ROLF, BLUMBERG, BRUCE,
MEYER, JEAN-ARCADY, & WILSON, STEWART W. (eds), From Animals to Animats
5: Proceedings of the 5th International Conference on Simulation of Adaptive Beha-
vior. MIT Press.
NOBLE, JASON. 2000. Talk is cheap: Evolved strategies for communication
and action in asymmetrical animal contests. Pages 481490 of: MEYER, JEAN-
ARCADY, BERTHOZ, ALAIN, FLOREANO, DARIO, ROITBLAT, HERBERT, & WIL-
SON, STEWART W. (eds), From Animals to Animats 6. MIT Press.
142
NOLFI, STEFANO, & FLOREANO, DARIO. 1998. How Co-Evolution Can Enhance
the Adaptive Power of Articial Evolution: Implications for Evolutionary Robots. Pa-
ges 2238 of: HUSBANDS, PHILIP, & MEYER, JEAN-ARCADY (eds), Evolutionary
Robotics. Spring-Verlag.
NOLFI, STEFANO, & FLOREANO, DARIO. 2000. Evolutionary Robotics: The Bio-
logy, Intelligence, and Tecnhology of Self-Organizing Machines. Intelligent Robots
and Autonomous Agents. MIT Press.
NOWAK, MARTIN A, & MAY, R M. 1993. The Spatial Dilemmas of Evolution. In-
ternational Journal of Bifurcation and Chaos, 3(1), 3578.
NOWAK, MARTIN A, & SIGMUND, KARL. 1993. Chaos and the Evolution of Coope-
ration. Proceedings of the National Academy of Sciences, 90, 50915094.
NOWAK, MARTIN A, BONHOEFFER, S, & MAY, R M. 1994. Spatial Games and the
Maintenance of Cooperation. Proceedings of the National Academy of Sciences, 91,
48774881.
NOWAK, MARTIN A, SIGMUND, KARL, & EL-SEDY, ESAM. 1995. Automata, repe-
ated games and noise. Journal of Mathematical Biology.
RAY, THOMAS S., & HART, JOSEPH. 1998. Evolution of Differentiated Multi-
threaded Digital Organisms. In: (Adami et al., 1998).
ROSENSCHEIN, JEFFREY S., & ZLOTKIN, GILAD. 1994. Rules of Encounter: Desig-
ning Conventions for Automated Negotiation Among Computers. MIT Press.
RUFFLE, BRADLEY J. 1998. More Is Better, But Fair Is Fair: Tipping in Dictator and
Ultimatum Games. Games and Economic Behaviour, 23, 247265.
RUSSELL, & NORVIG. 1995. Articial Intelligence: A Modern Approach. Prentice
Hall.
SCHWEFEL, HANS-PAUL. 1994. Evolution and Optimum Seeking. John Wiley &
Sons, Inc.
SCHWEFEL, HANS-PAUL, & RUDOLPH, GNTER. 1995. Contemporary Evolution
Strategies. In: (Morn et al., 1995).
SEN, SANDIP. 2002. Believing others: Pros and Cons. Articial Intelligence.
SEN, SANDIP, BISWAS, ANISH, & DEBNATH, SANDIP. 2000. Believing others: Pros
and Cons. Pages 279286 of: Proceedings of the Fourth International Conference on
MultiAgent Systems (ICMAS-2000). IEEE.
143
SIGMUND, KARL, HAUERT, CHRISTOPH, & NOWAK, MARTIN A. 2001. Reward
and Punishment in Minigames. Proceedings of the National Academy of Sciences,
98(19), 1075710762.
STANLEY, E ANN, ASHLOCK, DAN, & SMUCKER, MARK D. 1995. Iterated Prisio-
ners Dilemma with Choice and Refusal of Partners: Evolutionary Results. In: (Morn
et al., 1995).
STEELS, LUC. 1997. Self Organising vocabularies. In: (Langton & Shimohara, 1997).
STONE, PETER. 2000. Layered Learning in Multiagent Systems. Intelligent Robotics
and Autonomous Agents. MIT Press.
TANENBAUM, ANDREW S. 1989. Computer Networks. Second edn. Prentice-Hall.
TANENBAUM, ANDREW S. 1995. Distributed Operating Systems. Second edn.
Prentice-Hall.
TESFATSION, LEIGH. 2002. Agent-Based Computational Economics: Growing Eco-
nomies from the Bottom Up. Articial Life, 8(1), 5582.
VAN DIJK, FRANS, SONNEMANS, JOEP, & VAN WINDEN, FRANS. 2002. Social ties
in a public good experiment. Journal of Public Economics, 85, 275299.
VIDAL, JOS. 2003. Learning in Multiagent Systems: An Introduction from a Game-
Theoretic Perspective. Pages xx of: ALONSO, EDUARDO (ed), Adaptive Agentes.
LNAI, vol. 2636. Springer Verlag.
VIDAL, JOS M., & DURFEE, EDMUND H. 1998. Learning Nested Agent Models
in an Information Economy. Journal of Experimental & Theoretical Articial Intelli-
gence, 10(3), 291308.
VIDAL, JOS M., & DURFEE, EDMUND H. 2003. Predicting the Expected Behavior
of Agents that Learn About Agents: The CLRI Framework. Autonomous Agents and
Multi-Agent Systems Journal, 6(1), 77107.
VON NEUMANN, JOHN, & MORGENSTERN, OSKAR. 1953. Theory of Games and
Economic Behavior. third edn. Princeton University Press.
WALL, MATHEW. 2000. GALib A C++ Library of Genetic Algorithm Components.
http://lancet.mit.edu/ga/.
WATSON, JOEL. 2002. Starting Small and Commitment. Games and Economic Beha-
viour, 38, 176199.
144
WEISS, GERHARD (ed). 1999. Multiagent systems: a modern approach to distributed
articial intelligence. MIT Press.
WERNER, GREGOR M., & DYER, M.G. 1992. Evolution of communication in arti-
cial organisms. Pages 659687 of: LANGTON, CHRISTOPHER G., TAYLOR, CHAR-
LES, DOYNE, J. DOYNE FARMER J., & RASMUSSEN, STEEN (eds), Articial Life II:
Proceedings of the Second Conference on Articial Life. Addison-Wesley.
WU, JIANZHONG, & AXELROD, ROBERT. 1997. Coping with Noise. In: (Axelrod,
1997a).
YAMAGUCHI, YOSHIKI, MARUYAMA, TSUTOMU, & HOSHINO, TSUTOMU. 2000.
A Co-evolution model of Scores and Strategies in IPD games: toward the understan-
ding of the emergence of the social morals. In: (Bedau et al., 2000).
145

Vous aimerez peut-être aussi