Vous êtes sur la page 1sur 119

Notas de Aula do Curso de Ps-Graduao em

Teoria dos Jogos


Leandro Chaves Rgo, Ph.D.
2011.1
Prefcio
Estas notas de aula foram feitas para compilar o contedo de vrias referncias bibliogrcas
tendo em vista o contedo programtico de uma disciplina introdutria de Teoria dos Jogos
a nvel de Ps-graduao. Em particular, elas no substituem a consulta a livros textos e
artigos. Seu principal objetivo dispensar a necessidade dos alunos terem que copiar as
aulas e, deste modo, poderem se concentrar em entender o contedo das mesmas.
Recife, maro de 2011.
Leandro Chaves Rgo, Ph.D.
i
Contedo
Prefcio i
1 Introduo Teoria dos Jogos 1
1.1 O que Teoria dos Jogos? . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 Experimentos de Motivao . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
2 Jogos de Uma Pessoa - Teoria da Deciso 4
2.1 Escolha sob Certeza. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
2.1.1 Relaes Binrias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
2.1.2 Relao de Preferncia . . . . . . . . . . . . . . . . . . . . . . . . . . 6
2.1.3 Representao Ordinal . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.2 Escolha sob Incerteza. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.2.1 Regras de Deciso . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.2.2 Qual a Regra Correta? . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.2.3 Representao Cardinal . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.2.4 Paradoxos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
3 Jogos em Forma Normal 24
3.1 Denio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
3.2 Alguns Exemplos Importantes . . . . . . . . . . . . . . . . . . . . . . . . . . 25
3.2.1 Batalha dos Sexos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
3.2.2 Jogos de Soma-Zero . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
3.2.3 Medindo Foras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
3.2.4 Dilema do Prisioneiro . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
3.2.5 Duoplio de Cournot . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
3.2.6 Duoplio de Bertrand . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
3.3 Racionalizabilidade e Dominncia . . . . . . . . . . . . . . . . . . . . . . . . 28
3.3.1 Comportamento Racional . . . . . . . . . . . . . . . . . . . . . . . . 28
3.3.2 Dominncia Iterada . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
3.4 Racionalizabilidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
3.5 Equilbrio de Nash . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
3.5.1 Jogos com um nico Equilbrio de Nash . . . . . . . . . . . . . . . . 37
3.5.2 Jogos com Mltiplos Equilbrios de Nash . . . . . . . . . . . . . . . . 39
3.5.3 Pontos Focais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
ii
3.5.4 Risco Dominante . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
3.5.5 Dominncia Conjunta . . . . . . . . . . . . . . . . . . . . . . . . . . 41
3.5.6 Prova da Existncia . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
3.5.7 Clculo de Equilbrio de Nash . . . . . . . . . . . . . . . . . . . . . . 43
3.5.8 Interpretaes de Equilbrio de Nash . . . . . . . . . . . . . . . . . . 45
3.6 Jogo Simtrico em Forma Normal . . . . . . . . . . . . . . . . . . . . . . . . 46
3.7 Jogo de Dois Agentes com Soma Constante . . . . . . . . . . . . . . . . . . . 48
4 Jogos em Forma Extensa 53
4.1 Introduo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
4.2 Jogos com Informao Perfeita . . . . . . . . . . . . . . . . . . . . . . . . . . 53
4.2.1 Estratgias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
4.2.2 Representao em Formal Normal de um Jogo em Forma Extensa com
Informao Perfeita . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
4.2.3 Equilbrio de Nash . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
4.2.4 Equilbrio de Subjogo Perfeito . . . . . . . . . . . . . . . . . . . . . . 61
4.3 Jogos com Informao Imperfeita . . . . . . . . . . . . . . . . . . . . . . . . 63
4.3.1 Memria Perfeita e Memria Imperfeita . . . . . . . . . . . . . . . . . 64
4.3.2 Estratgias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
4.3.3 Representao em Formal Normal de um Jogo em Forma Extensa com
Informao Imperfeita . . . . . . . . . . . . . . . . . . . . . . . . . . 71
4.3.4 Equilbrio de Nash . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
4.3.5 Equilbrio sequencial . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
5 Renamentos de Equilbrio de Nash para Jogos em Forma Normal 79
5.1 Introduo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
5.2 Equilbrio Perfeito de Mo Trmula . . . . . . . . . . . . . . . . . . . . . . . 79
5.3 Equilbrio Prprio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
6 Jogos Bayesianos 86
6.1 Introduo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
6.2 Denio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
6.2.1 Estratgias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
6.2.2 Representao em Forma Normal . . . . . . . . . . . . . . . . . . . . 88
6.2.3 Equilbrio Bayesiano . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
7 Conhecimento e Conhecimento Comum 92
7.1 Introduo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92
7.2 Um Modelo para Conhecimento . . . . . . . . . . . . . . . . . . . . . . . . . 92
7.3 Conhecimento Comum . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95
7.4 Impossibilidade de Concordar em Discordar . . . . . . . . . . . . . . . . . . 97
iii
8 Jogos Repetidos 98
8.1 Introduo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98
8.2 Jogos Repetidos Innitas Vezes . . . . . . . . . . . . . . . . . . . . . . . . . 98
8.3 Estratgias como Mquinas . . . . . . . . . . . . . . . . . . . . . . . . . . . 100
8.4 Estratgias Gatilho: Teoremas de Nash Folk . . . . . . . . . . . . . . . . . . 102
8.5 Punindo por Tempo Limitado: Um Teorema de Folk Perfeito para o Critrio
do Limite das Mdias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104
8.6 Punindo quem no Pune: Um Teorema de Folk Perfeito para o Critrio da
Ultrapassagem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106
8.7 Recompensando quem Pune: Um Teorema de Folk Perfeito para o Critrio
do Desconto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
8.8 Jogos Repetidos Finitas Vezes . . . . . . . . . . . . . . . . . . . . . . . . . . 109
8.8.1 Equilbrio de Nash . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110
8.8.2 Equilbrio de Subjogo Perfeito . . . . . . . . . . . . . . . . . . . . . . 111
Referncias Bibliogrcas 114
iv
Captulo 1
Introduo Teoria dos Jogos
1.1 O que Teoria dos Jogos?
Denio 1.1.1: Teoria dos jogos um ramo da matemtica aplicada que analisa a interao
de um grupo de agentes (ou jogadores) racionais que se comportam estrategicamente.
Esta denio contm um nmero de conceitos importantes que discutiremos a seguir:
Agentes ou Jogadores: So as entidades que precisam tomar decises em uma dada
situao. Por exemplo, essas entidades podem ser indivduos, empresas, animais, pases,
times, sindicatos, etc.
Grupo: Em geral, assume-se que jogos contm mais de um agente. Se a situao contm
apenas um agente, o jogo se transforma em uma problema de deciso.
Interao: Deve existir pelo menos um agente cujas decises inuencie nas decises
de algum outro agente do grupo, caso contrrio, tem-se uma srie de problemas de deciso
independentes.
Estrategicamente: Agentes levam em conta as interdependncias entre suas escolhas
quando tomando suas decises.
Racionais: Agentes levam em conta a interdependncia entre suas escolhas e agem de
forma a obter consequncias mais prximas possveis de objetivos pr-estabelecidos dado
conhecimento de como outros agentes do grupo se comportam.
No sentido usual um jogo uma atividade competitiva no qual jogadores disputam uns
com os outros de acordo com um conjunto de regras. O escopo de aplicaes de teoria dos
jogos bem maior do que esses jogos. Por exemplo, podemos utilizar teoria dos jogos para
modelar: rmas que competem por um mercado, polticos competindo por votos, membros de
um juri decidindo sobre um veredito, animais brigando por uma presa, pessoas competindo
em um leilo, etc.
Exemplo 1.1.2: Assuma que 6 pessoas vo a um bar. Se cada uma delas paga sua prpria
conta, temos 6 problemas de deciso. Se elas rateiam a conta igualmente, temos um problema
de teoria dos jogos.
Uma anlise por Teoria dos Jogos comea com uma idia relacionada a algum aspecto
sobre uma interao entre agentes. Ns expressamos essa idia precisamente atravs de um
1
1.2. EXPERIMENTOS DE MOTIVAO 2
modelo, incluindo aspectos da situao que parecem ser relevantes. Esta etapa a arte de
modelagem. Em geral, precisamos de um modelo rico o suciente para que possamos obter
resultados no-triviais, mas no to detalhado que nos levem a complicaes desnecessrias
na nossa anlise do modelo, a prxima etapa. Esta anlise pode conrmar ou no nossas
intuies sobre a situao. Se nossa intuio estiver realmente errada, a anlise pode nos
ajudar a entender por que ela est errada. Caso contrrio, podemos chegar a concluso que
uma suposio do modelo foi inapropriada, ou que um elemento importante est faltando
no modelo. Enm, poderemos tentar estudar a situao com um outro modelo ou chegar
a concluso que nossa intuio no era vlida. Portanto, tanto nossas intuies podem
esclarecer que algumas suposies do modelo no so apropriadas, como a anlise do modelo
pode esclarecer que nossa intuio no fazia sentido. Em ambas as situaes, o processo de
formulao e anlise do modelo melhorar nosso entendimento sobre a situao que estamos
considerando.
1.2 Experimentos de Motivao
Experimento 1: Suponha que urna A contm 100 bolas, sendo 90 brancas, 6 vermelhas, 1
verde, e 3 amarelas. Uma urna B contm 100 bolas, sendo 90 brancas, 7 vermelhas, 1 verde
e 2 amarelas. Voc tem que escolher entre sortear uma bola da urna A ou da urna B. Se
uma bola retirada da urna A, voc recebe R$0 se a bola for branca, R$45 se a bola for
vermelha, R$30 se a bola for verde e voc tem que pagar R$15 se a bola for amarela. Se
uma bola retirada da urna B, voc recebe R$0 se a bola for branca, R$45 se a bola for
vermelha, voc tm que pagar R$10 se a bola for verde e pagar R$15 se a bola for amarela.
O que voc prefere?
Experimento 2: Cada um de vocs (estudantes neste curso) tem de escolher um nmero
inteiro entre 0 e 100. Suponha que duplas de estudantes sero formadas aleatoriamente e de
cada dupla sair vencedor o estudante que escolher o maior inteiro que no for maior que
2/3 da mdia dos dois nmeros escolhidos pela dupla. Escolha o seu nmero e justique a
sua escolha.
Experimento 3: Cada um de vocs (estudantes neste curso) tem de escolher um nmero
inteiro entre 0 e 100. Cada estudante que escolher o maior inteiro que no for maior que 2/3
da mdia de todas as respostas ganhar um bilhete premiado da Mega-sena. Escolha o seu
nmero e justique a sua escolha.
Experimento 4: Imagine que voc um dos jogadores no seguinte jogo envolvendo duas
pessoas:
Cada um dos jogadores tem que escolher uma quantidade entre R$180 e R$300.
Ambos jogadores recebem o pagamento igual a menor das duas quantidades escolhidas.
R$50 reais so transferidos do jogador que escolher a quantidade maior para o jogador
que escolher a quantidade menor.
Autor: Leandro Chaves Rgo
1.2. EXPERIMENTOS DE MOTIVAO 3
No caso em que ambos jogadores escolhem mesma quantidade, eles recebem esta quan-
tidade e nenhuma transferncia feita.
Escolha sua quantidade e justique sua escolha.
Experimento 5: Cada um de vocs participaro em um leilo para um carro de valor de
marcado de R$100.000,00 (cem mil reais). A regra do leilo a seguinte: para participar
do leilo voc ter que pagar R$50,00 e fazer uma oferta em valores inteiros de reais para
arrematar o carro. Ganha o carro a pessoa com a menor oferta nica. Escolha sua oferta e
justique a sua escolha.
Experimento 6: Voc est participando em um jogo com 4 outros jogadores. No jogo, cada
jogador recebe R$100,00 reais. Voc tem que decidir como distribuir este dinheiro entre dois
fundos de investimento diferentes:
1. Seu fundo pessoal: para cada real que voc investe em seu fundo pessoal, somente voc
receber R$4,00 reais.
2. Fundo participativo: para cada real que qualquer jogador investir neste fundo par-
ticipativo, todos os jogadores recebero R$2,00, independentemente de quanto cada
jogador tenha ele prprio investido neste fundo.
Voc pode distribuir o dinheiro da maneira que voc desejar. Diga quantos reais voc inves-
tir no fundo participativo e justique sua escolha.
Autor: Leandro Chaves Rgo
Captulo 2
Jogos de Uma Pessoa - Teoria da Deciso
2.1 Escolha sob Certeza.
Neste captulo, ns estudamos a teoria da deciso ou teria da escolha racional que pode ser
vista como um jogo onde o decisor joga com ele mesmo. Agentes frequentemente enfrentam
situaes nas quais eles tm que tomar uma deciso. As aes dos outros agentes no
inuenciam minhas preferncias sobre as opes disponveis. Portanto, no existe interao
estratgica envolvida. Jogos propriamente ditos sero discutidos nos captulos seguintes.
2.1.1 Relaes Binrias
Para um dado conjunto X, denotamos por X X o produto Cartesiano usual, ou seja, o
conjunto contendo todos os pares ordenados (x, y), onde x e y pertencem a X.
Denio 2.1.1: Uma relao binria B no conjunto X formalmente denida como um
subconjunto de X X, e (x, y) B se o par ordenado (x, y) satisfaz a relao B. Uma
outra maneira de escrever (x, y) B xBy. Se (x, y) / B, escreveremos xBy.
Exemplo 2.1.2:
1. Seja X o conjunto de todas as pessoas nesta disciplina e seja B a relao mais
velho(a) que;
2. Seja X o conjunto de todos os times de futebol do pas e seja B a relao tem mais
ttulos nacionais que;
3. Seja X = IR e seja B a relao xBy se y = x
2
;
4. Seja X = {a, b, c} e seja B = {(b, a), (c, a), (a, a)}.
Existem vrias propriedades que uma dada relao binria pode ou no satisfazer. Uma
relao binria em X pode ser:
4
2.1. ESCOLHA SOB CERTEZA. 5
reexiva se xBx, x X;
irreexiva se xBx, x X;
simtrica se xBy implica yBx;
assimtrica se xBy implica yBx;
anti-simtrica se xBy e yBx implicam x = y;
transitiva se xBy e yBz implicam xBz;
negativamente transitiva se xBy e yBz implicam xBz;
completa ou conectada se para todo x, y X, xBy ou yBx;
fracamente conectada se para todo x, y X, x = y, xBy, ou yBx;
acclica se x
1
Bx
2
, x
2
Bx
3
, . . . , x
n1
Bx
n
implica x
1
= x
n
.
Existem algumas relaes importantes entre essas propriedades. Antes vamos provar o
seguinte lema que caracteriza a propriedade da transitividade negativa.
Lema 2.1.3: Uma relao binria B negativamente transitiva se, e somente se, xBz
implica que, para todo y X, xBy ou yBz.
Prova: Note que armar que [xBz implica que, para todo y X, xBy ou yBz] equivalente
a armar que [se existe y X tal que xBy e yBz, ento xBz], mas a ltima armao
a denio de transitividade negativa.
Corolrio 2.1.4: Se uma relao binria B negativamente transitiva, ento para todo
x, y X, temos (1) xBy, (2) yBx, ou (3) para todo z X, (a) xBz se, e somente se, yBz,
e (b) zBx se, e somente se, zBy.
Prova: Exerccio.
Lema 2.1.5: Se uma relao binria B assimtrica e negativamente transitiva, ento ela
(a) irreexiva, (b) transitiva e (c) acclica.
Prova: Para parte (a), suponha por contradio que B no fosse irreexiva, ento existe
x X tal que xBx. Assimetria ento implica que xBx, absurdo.
Para parte (b), suponha que xBy e yBz. Como B negativamente transitiva, Lema 2.1.3
implica que como xBy, ento zBy ou xBz. Como yBz e B assimtrica sabemos que zBy,
portanto xBz, ou seja, B transitiva.
Para parte (c), se x
1
Bx
2
, x
2
Bx
3
, . . . , x
n1
Bx
n
, transitividade implica que x
1
Bx
n
. Como
B irreexiva, isto implica que x
1
= x
n
. Portanto, B acclica.
Autor: Leandro Chaves Rgo
2.1. ESCOLHA SOB CERTEZA. 6
Exemplo 2.1.6: Seja Z

o conjunto dos inteiros no nulos e seja B a relao em Z

denida por (a, b)B(c, d) sempre que ad = bc. Vamos provar que B uma relao reexiva,
simtrica e transitiva.
(i) Reexividade: temos (a, b)B(a, b), j que ab = ba. Portanto, B reexiva.
(ii) Simetria: temos (a, b)B(c, d). Ento ad = bc. Por conseguinte, cb = da e, portanto,
(c, d)B(a, b). Assim, B simtrica.
(iii) Transitividade: suponha (a, b)B(c, d) e (c, d)B(e, f). Ento, ad = bc e cf = de.
A multiplicao dos termos correspondentes da equao leva a (ad)(cf) = (bc)(de).
Cancelando c = 0 e d = 0 dos dois lados da equao, obtm-se af = be, e portanto
(a, b)B(e, f). Logo, B transitiva.
2.1.2 Relao de Preferncia
Nesta seo, suponha que existe um conjunto de objetos X e um agente que capaz de fazer
comparaes desses objetos par a par da seguinte maneira, Eu prero estritamente x a y,
que representaremos por x y. Note que estas comparaes denem uma relao binria.
Usaremos a notao x y para representar x y.
Denio 2.1.7: Uma relao binria em um conjunto X chamada de relao de
preferncia se ela for assimtrica e negativamente transitiva.
Note que o Lema 2.1.5 implica que toda relao de preferncia irreexiva, transitiva e
acclica. natural requerer que esta relao de preferncia estrita satisfaa assimetria, pois
se o agente prefere estritamente x a y, ele no deve preferir estritamente y a x. Apesar de
ser usual requerer que uma relao de preferncia satisfaa a transitividade negativa, esta
propriedade pode em alguns casos no parecer razovel. Por exemplo, suponha que X =
(0, ) (0, ), onde (x
1
, x
2
) X pode ser interpretado como uma cesta com x
1
cachorros
quentes e x
2
fatias de bolos, um agente pode por exemplo preferir (10, 10) estritamente a
(9, 9), mas no ser capaz de armar que (10, 10) (15, 6) ou que (15, 6) (9, 9), ele pode
alegar que estas comparaes so muito difceis para ele fazer. Apesar disto, prosseguiremos
com a suposio usual que toda relao de preferncia negativamente transitiva.
Dada uma relao de preferncia que expressa preferncia estrita, podemos denir outras
duas relaes binrias:
x y, se y x;
x y, se x y e y x.
A relao conhecida como preferncia fraca, embora ela apenas expresse a falta
de preferncia estrita. A relao chamada de indiferena, ela expressa ausncia de
preferncia estrita entre dois objetos, o que s vezes pode ser diferente de indiferena.
Autor: Leandro Chaves Rgo
2.1. ESCOLHA SOB CERTEZA. 7
Proposio 2.1.8: Se uma relao de preferncia, ento
(a) Para todo x e y, exatamente uma dessas relaes vlida: x y, y x, ou x y.
(b) completa e transitiva.
(c) reexiva, simtrica, e transitiva.
(d) w x, x y, y z implicam w y e x z.
(e) x y se, e somente se, x y ou x y.
(f ) x y e y x implicam x y.
Prova: (a) segue da denio de e do fato que assimtrica. Para (b) note que a
assimetria de implica que, x y ou y x para todo x e y, portanto completa. Para
transitividade de , note que esta segue diretamente da transitividade negativa de . Para
(c), note que reexiva por que irreexiva. simtrica por que a denio de
simtrica. Para transitividade, suponha que x y z. Ento, x y z e z y x. Pela
transitividade negativa de , temos que x z x, ou x z. Para parte (d), assuma que
w x y. Pela parte (a), temos que w y, y w, ou w y. Porm y w no possvel,
pois a transitividade de implicaria y x, contrariando a suposio que x y. w y
tambm impossvel, pois a transitividade e simetria de implicaria w x, contrariando
a hiptese que w x. Logo, w y tem que ser verdadeiro. A outra parte similar. Para
parte (e), note que por denio x y se, e somente se, y x. Mas a parte (a) implica
que a ltima condio ocorre se, e somente se, x y ou x y. Finalmente, parte (f), segue
imediatamente das denies de e .
Observe que nosso agente expressa apenas preferncias estritas, a partir das quais ns
derivamos preferncia fraca e indiferena. O agente em nenhum momento expressa relaes
de indiferena ou preferncia fraca diretamente e ele pode at discordar da terminologia que
ns utilizamos para as relaes e .
2.1.3 Representao Ordinal
Estamos interessados em relaes de preferncia que possam ser representadas por uma
funo de utilidade u : X IR no seguinte sentido:
x y se, e somente se, u(x) > u(y), x, y X. (2.1)
O teorema a seguir arma que uma relao binria precisa ser uma relao de preferncia a
m de que possa ser representada por uma funo de utilidade.
Teorema 2.1.9: Seja X nito ou enumervel. Uma relao binria pode ser representada
por uma funo de utilidade u no sentido de (2.1) se, e somente se, for uma relao de
preferncia.
Autor: Leandro Chaves Rgo
2.1. ESCOLHA SOB CERTEZA. 8
Prova: Suponha que existe tal funo u que represente a relao binria. Suponha que
x y, como u representa segue que u(x) > u(y). Logo, como u representa , segue que
y x, pois caso contrrio teramos u(y) > u(x). Logo, assimtrica. Se x y e y z,
ento u(x) u(y) e u(y) u(z). Portanto, u(x) u(z), ento como u representa , temos
que x z, ou seja, transitiva negativa.
Para a prova da recproca suponha que uma relao de preferncia, e para todo
x X, dena X(x) = {y X : y x} e X(x) = {y X : x y}. Seja x
1
, x
2
, . . . uma
enumerao qualquer de X. Ento dena, r(x
n
) = 1/2
n
e
u(x) =

yX(x)
r(y)

yX(x)
r(y). (2.2)
Como

yX
r(y) = 1, u(x) est bem denido e u(x) (1, 1). Note que pela Proposi-
o 2.1.8(d), se x x

, ento X(x) X(x

) e X(x) X(x

). Alm disso, se x x

, temos
que x X(x

), x / X(x), x

X(x) e x

/ X(x

); logo ambas as relaes de incluso so


estritas. Como r(y) > 0, y X, segue que se x x

, ento u(x) u(x

) e que se x x

,
ento u(x) > u(x

). Portanto, x x

se, e somente se, u(x) > u(x

).
O prximo teorema implica que a funo utilidade u nica exceto por uma transfor-
mao estritamente crescente. Por este motivo, essas funes utilidades so chamadas de
funes de utilidade ordinais.
Teorema 2.1.10: Dado um conjunto X, uma relao de preferncia e funes u e u

que
representam no sentido de (2.1), ento existe uma funo f : IR IR tal que
(a) f estritamente crescente em {r : x X, r = u(x)} e
(b) u

(x) = f(u(x)), x X.
Alm disso, para qualquer funo estritamente crescente g : IR IR, u

(x) = g(u(x)), x
X tambm representa .
Prova: Exerccio.
Quando X for no-enumervel, algumas relaes de preferncia podem no ser repre-
sentadas por nenhuma funo de utilidade. Por exemplo, considere X = [0, 1] [0, 1], e
dena
(x
1
, x
2
) (y
1
, y
2
) se x
1
> y
1
ou [x
1
= y
1
e x
2
> y
2
].
Esta uma relao de preferncia (Exerccio). Esta relao conhecida como preferncia
lexicogrca. Esta relao no pode ser representada por uma funo utilidade. Suponha,
por contradio, que u represente . Ento, para todo r [0, 1], o caso que (r, 1) (r, 0),
portanto u((r, 1)) > u((r, 0)). Seja d(r) = u((r, 1)) u((r, 0)). Logo, d(r) > 0, r [0, 1].
Ento,
[0, 1] =

n=1
{r : d(r) > 1/n}.
Note que o lado esquerdo da igualdade no enumervel. Como o lado direito uma
unio enumervel de conjuntos, pelo menos um deles deve ser no enumervel. Suponha
Autor: Leandro Chaves Rgo
2.1. ESCOLHA SOB CERTEZA. 9
que {r : d(r) > 1/n
0
} no enumervel. Seja u((1, 1)) u((0, 0)) = K, e seja N um
inteiro maior que Kn
0
+ 1. Escolha um subconjunto {r
1
, r
2
, . . . , r
N
} de N elementos de
{r : d(r) > 1/n
0
} de tal forma que r
1
< r
2
< r
N
. Como (r
n
, 0) (r
n1
, 1), sabemos que
u((r
n
, 0)) > u((r
n1
, 1)). Portanto,
u((r
n
, 0)) u((r
n1
, 0)) > u((r
n1
, 1)) u((r
n1
, 0)) > 1/n
0
.
Finalmente,
K = u((1, 1)) u((0, 0))
= [u((1, 1)) u((r
N
, 0))] + [u((r
N
, 0)) u((r
N1
, 0))] +
+[u((r
2
, 0)) u((r
1
, 0))] + [u((r
1
, 0)) u((0, 0))]
> 0 + 1/n
0
+ 1/n
0
+ + 1/n
0
+ 0 > (N 1)/n
0
> K.
Uma contradio.
Recorde que um espao mtrico um conjunto M onde pode-se denir uma distncia
d(x, y) entre quaisquer dois pontos x, y M que satisfaz:
(a) d(x, y) 0 e d(x, y) = 0 se, e somente se, x = y.
(b) d(x, y) = d(y, x).
(c) d(x, z) d(x, y) + d(y, z).
Um espao mtrico M separvel, se ele contm um subconjunto enumervel M
0
e M
igual a unio de M
0
e todos os pontos de acumulao de M
0
.
1
Por exemplo, IR
n
um
espao mtrico separvel, onde M
0
conjunto de todas as n-tuplas onde cada componente
um nmero racional.
Denio 2.1.11: Uma relao binria denida em um espao mtrico separvel X
contnua se para todas as (x
n
) de X com x
n
x, (a) se x y para algum y X, ento
para todo n grande o suciente, x
n
y; e (b) se y x para algum y X, ento para todo
n grande o suciente, y x
n
.
Se as preferncias forem contnuas, elas podem ser representadas por uma funo de
utilidade (contnua) mesmo quando X for no-enumervel.
Teorema 2.1.12: Seja X um subconjunto de um espao mtrico separvel. Uma relao
binria em X pode ser representada por uma funo de utilidade contnua u : X IR no
sentido de (2.1) se, e somente se, for uma relao de preferncia contnua.
Prova: Omitida.
2
1
a M um ponto de acumulao de um subconjunto N M, se existe uma sequncia de elementos
de N que converge para a, ou seja, um ponto do espao M que pode ser aproximado to bem quanto se
queira por innitos pontos do subconjunto N. Note que a pode ou no pertencer a N.
2
Para maiores detalhes da prova consultar, por exemplo, Debreu G. (1954), Representation of a Preference
Ordering by a Numerical Function, http://cowles.econ.yale.edu/P/cp/p00b/p0097.pdf .
Autor: Leandro Chaves Rgo
2.2. ESCOLHA SOB INCERTEZA. 10
2.2 Escolha sob Incerteza.
Quando um jogador escolhe entre suas estratgias, ele no sabe quais estratgias os outros
jogadores escolheram, por isso no tem certeza quanto s consequncias de suas escolhas.
Para analisar as decises dos jogadores em um jogo, seria til ento ter uma teoria de
tomada de deciso que nos permita expressar as preferncias de um agente sobre escolhas
com consequncias incertas em termos de sua atitude perante as consequncias.
2.2.1 Regras de Deciso
Existem muitas regras de deciso que podem ser adotadas dependendo da situao por um
agente que tem que realizar uma escolha sob incerteza. Assumiremos que o agente escolhe
aes que so funes do estado da natureza para consequncias ou prmios e que o agente
capaz de determinar qual a utilidade dessas consequncias, onde um estado da natureza
uma descrio de todos os aspectos do mundo relevantes ao problema de deciso. Algumas
regras requerem que o agente seja capaz de determinar uma probabilidade sobre o espao dos
estados da natureza, outras no precisam desta descrio probabilstica e podem ser usadas
em casos onde tal informao no disponvel ao agente. Assumiremos de agora em diante
que o conjunto S de estados da natureza nito, e que todas as probabilidades so denidas
na -lgebra 2
S
.
Maximin
Esta uma regra conservadora. Ela determina escolher a ao que se d melhor no pior
cenrio possvel, ou seja, tentar fazer o melhor na pior situao que poderia acontecer.
Formalmente, dado uma ao a A, dena
pior
u
(a) = min{u
a
(s) : s S}.
pior
u
(a) a utilidade da pior consequncia possvel para a ao a
A regra de Maximin estabelece que a a

se, e somente se, pior


u
(a) > pior
u
(a

).
Considere o seguinte exemplo onde as aes so descritas em uma matriz que estabelece
a utilidade de cada consequncia em cada estado da natureza possvel.
Exemplo 2.2.1:
s
1
s
2
s
3
s
4
a
1
5 0

2
a
2
1

4 3 7
a
3
6 4 4 1

a
4
5 6 4 3

Se utilizarmos a regra de Maximin, temos a


4
a
3
a
1
a
2
. Se o agente porm achasse
que o estado s
4
bem mais provvel que os outros estados esta regra no seria mais adequada.
Autor: Leandro Chaves Rgo
2.2. ESCOLHA SOB INCERTEZA. 11
Maximax
Esta a regra para os otimistas. Ela determina escolher a ao que melhor no melhor cen-
rio possvel, ou seja, faa o melhor esperando que o melhor possvel ir ocorrer. Formalmente,
dada uma ao a A, dena
melhor
u
(a) = max{u
a
(s) : s S}.
melhor
u
(a) a utilidade da melhor consequncia para a ao a;
A regra de Maximax estabelece que a a

se, e somente se, melhor


u
(a) > melhor
u
(a

).
Exemplo 2.2.2: Considere novamente as aes do Exemplo 2.2.1:
s
1
s
2
s
3
s
4
a
1
5

0 0 2
a
2
-1 4 3 7

a
3
6

4 4 1
a
4
5 6

4 3
Se utilizarmos a regra de Maximax, temos a
2
a
4
a
3
a
1
.
Regra Otimismo-Pessimismo
A idia desta regra fazer uma mdia ponderada entre o melhor e o pior cenrio onde o peso
depende de quo otimista o agente . Dena opt

u
(a) = melhor
u
(a) +(1 )pior
u
(a). Note
que se = 1, temos a regra de Maximax; se = 0, temos Maximin; e, em geral, mede
quo otimista o agente .
A regra de otimismo-pessimismo estabelece que dado , a a

se, e somente se, opt

u
(a) >
opt

u
(a

).
Esta regra estranha se pensarmos probabilisticamente, pois pior
u
(a) coloca probabili-
dade 1 no estado que corresponde ao pior cenrio segundo a. E este cenrio pode ser diferente
para aes diferentes! Mais geralmente, opt

u
coloca probabilidade no estado que corres-
ponde ao melhor cenrio segundo a, e coloca probabilidade 1 no estado que corresponde
ao pior cenrio segundo a.
Minimax Arrependimento
A idia desta regra minimizar quo arrependido o agente car quando ele descobrir o
verdadeiro estado da natureza. a regra que captura o que sentimos quando dizemos: eu
gostaria de ter escolhido a. Formalmente, para cada estado s, seja a
s
a ao com a melhor
consequncia em s.
arrependimento
u
(a, s) = u
a
s
(s) u
a
(s)
arrependimento
u
(a) = max
sS
arrependimento
u
(a, s)
Autor: Leandro Chaves Rgo
2.2. ESCOLHA SOB INCERTEZA. 12
arrependimento
u
(a) o maior arrependimento que agente poderia ter se ele escolher a
ao a.
3
A regra de Minimax arrependimento estabelece que a a

se, e somente se,


arrependimento
u
(a) < arrependimento
u
(a

).
Exemplo 2.2.3: Considere mais uma vez as aes do Exemplo 2.2.1:
s
1
s
2
s
3
s
4
a
1
5 0 0 2
a
2
1 4 3 7

a
3
6

4 4

1
a
4
5 6

3
Podemos ento, determinar a melhor ao em cada estado da natureza.
a
s
1
= a
3
; u
a
s
1
(s
1
) = 6
a
s
2
= a
4
; u
a
s
2
(s
2
) = 6
a
s
3
= a
3
(e a
4
); u
a
s
3
(s
3
) = 4
a
s
4
= a
2
; u
a
s
4
(s
4
) = 7
Desta forma, o maior arrependimento de cada ao dado por:
arrependimento
u
(a
1
) = max(6 5, 6 0, 4 0, 7 2) = 6
arrependimento
u
(a
2
) = max(6 (1), 6 4, 4 3, 7 7) = 7
arrependimento
u
(a
3
) = max(6 6, 6 4, 4 4, 7 1) = 6
arrependimento
u
(a
4
) = max(6 5, 6 6, 4 4, 7 3) = 4
Se utilizarmos a regra de Minimax arrependimento, temos a
4
a
1
a
3
a
2
.
3
Existe tambm uma noo multiplicativa de arrependimento, onde o arrependimento em um estado s
denido como sendo a razo entre o melhor que o agente poderia escolher quando o verdadeiro estado s e
a ao que ele est considerando.
Autor: Leandro Chaves Rgo
2.2. ESCOLHA SOB INCERTEZA. 13
Efeito de Transformaes
Na seo de escolha sob certeza, vimos que a escolha do agente no se alteraria se a funo
utilidade sofresse qualquer transformao estritamente crescente. Vamos analisar agora o
que ocorre com as regras de deciso Maximin, Maximax, Otimismo-Pessimismo e Minimax
arrependimento.
Proposio 2.2.4: Seja f : IR IR uma funo estritamente crescente:
maximin(u) = maximin(f(u))
maximax(u) = maximax(f(u))
opt

(u) pode no ser o mesmo que opt

(f(u))
arrependimento(u) pode no ser o mesmo que arrependimento(f(u)).
Prova: Exerccio.
Proposio 2.2.5: Seja f : IR IR, onde f(x) = ax + b, e a > 0. Ento
maximin(u) = maximin(f(u))
maximax(u) = maximax(f(u))
opt

(u) = opt

(f(u))
arrependimento(u) = arrependimento(f(u))
Prova: Exerccio.
Aes Irrelevantes
Suponha que A = {a
1
, . . . , a
n
} e, que de acordo com alguma regra de deciso, a
1
a
2
. Pode
acontecer que adicionando uma nova possvel ao, possamos reverter esta preferncia? Ou
seja, suponha que A

= A {a}. possvel que agora tenhamos segundo a mesma regra


de deciso anterior que a
2
a
1
? No caso das regras de Maximin, Maximax, e opt

no
(Exerccio). Contudo, no caso da regra de Minimax arrependimento isto possvel. A nova
ao pode alterar quem a melhor ao em um dado estado e desta forma alterar todos os
clculos.
Exemplo 2.2.6: Suponha que tenhamos as seguintes aes:
s
1
s
2
a
1
8 1
a
2
2 5
Autor: Leandro Chaves Rgo
2.2. ESCOLHA SOB INCERTEZA. 14
Portanto, temos
arrependimento
u
(a
1
) = 4 < arrependimento
u
(a
2
) = 6, ou seja,
a
1
a
2
.
Porm, suponha agora que acrescentemos a ao a
3
:
s
1
s
2
a
1
8 1
a
2
2 5
a
3
0 8
Agora, temos
arrependimento
u
(a
2
) = 6 < arrependimento
u
(a
1
) = 7 < arrependimento
u
(a
3
) = 8, ou seja,
a
2
a
1
a
3
.
O Princpio da Razo Insuciente
Considere o seguinte exemplo:
s
1
s
2
s
3
s
4
s
5
s
6
s
7
s
8
s
9
a
1
9 9 9 9 9 9 9 9 0
a
2
9 0 0 0 0 0 0 0 9
Nenhuma das regras de deciso anteriores so capazes de distinguir a
1
e a
2
. Porm, muitas
pessoas achariam a
1
melhor, pois argumentam que mais provvel que esta ao proporcione
uma melhor consequncia j que na maioria dos estados ela melhor. Formalmente, seja
u
a
(s) = u(a(s)), a utilidade da ao a no estado s. u
a
uma varivel aleatria. Seja
Pr a distribuio uniforme em S, ou seja, estamos assumindo que todos os estados so
equiprovveis, pois no existe razo para supor que um dos estados seja mais provvel que
os outros. Seja E
Pr
(u
a
) o valor esperado de u
a
.
Esta regra estabelece que a a

se, e somente se, E


Pr
(u
a
) > E
Pr
(u

a
).
Existe um problema com este modelo, pois ele sensvel a escolha dos estados. Por
exemplo, suponha que dividamos s
9
em 20 outros estados, neste caso considerando os 28
estados equiprovveis teramos que a
2
seria melhor. Outro problema que nem sempre
justicvel assumir que os estados so equiprovveis, isto requer uma informao que o
agente no possui.
Maximizao da Utilidade Esperada
Suponha agora que tenhamos uma distribuio de probabilidade Pr nos estados, podemos
ento calcular a utilidade esperada de cada ao a:
E
Pr
(u
a
) =
sS
Pr(s)u
a
(s).
A regra da Maximizao da Utilidade Esperada (MUE) estabelece que a a

se, somente
se, E
Pr
(u
a
) > E
Pr
(u
a
).
Autor: Leandro Chaves Rgo
2.2. ESCOLHA SOB INCERTEZA. 15
Minimizao do Arrependimento Esperado
Recorde que a
s
a ao com melhor consequncia no estado s.
arrependimento
u
(a, s) = u
a
s
(s) u
a
(s)
arrependimento
u
(a) = max
sS
arrependimento
u
(a, s)
Dada uma probabilidade Pr nos estados, o arrependimento esperado de a
E
Pr
(arrependimento
u
(a, )) =
sS
Pr(s)arrependimento
u
(a, s)
A regra da Minimizao do Arrependimento Esperado (MAE) estabelece que a a

se,
somente se, E
Pr
(arrependimento
u
(a, )) < E
Pr
(arrependimento
u
(a

, )).
Teorema 2.2.7: MUE and MAE so regras de deciso equivalentes, ou seja, a
MUE
a

se,
e somente se, a
MAE
a

.
Prova: Seja u

= u. Logo, maximizar E
Pr
(u
a
) equivalente a minimizar E
Pr
(u

a
). Seja
u
v
(a, s) = u

(a, s) + v(s), onde v : S IR arbitrrio. Minimizar E


Pr
(u

a
) equivalente a
minimizar E
Pr
(u
v
a
), pois somente adicionamos a mesma constante (E
Pr
(v)) ao valor esperado
de u

a
, para cada ao a. Escolhendo v(s) = u(a
s
), temos que E
Pr
(u
v
a
) o arrependimento
esperado de a.
A pergunta obvia de onde podemos extrair esta probabilidade envolvida nas regras de
MUE e MAE. Se houver dados sucientes, podemos estimar tais probabilidades utilizando
mtodos estatsticos. Pode-se tambm tentar elicitar uma probabilidade subjetiva do agente.
Existem outras regras que adotam um conjunto de medidas de probabilidade para representar
a incerteza do agente.
Regras que Utilizam um Conjunto de Medidas de Probabilidade
Considere que jogamos uma moeda honesta. Uma maneira razovel de representar a incerteza
do agente com a medida de probabilidade Pr
1/2
:
Pr
1/2
(cara) = Pr
1/2
(coroa) = 1/2.
Agora suponha que no se sabe o vis da moeda. Como devemos representar a in-
certeza do agente sobre o resultado do lanamento desta moeda? Podemos ainda utili-
zar Pr
1/2
. Porm, note que representar a incerteza do agente por esta medida de proba-
bilidade implica assumir que o agente acredita que se esta moeda for jogada vrias ve-
zes aproximadamente metade das vezes ele obter cara. Como o agente no dispe de
tal informao, parece mais razovel utilizar um conjunto de medidas de probabilidade
{Pr
p
: p [0, 1]}, onde Pr
p
(cara) = p para representar a incerteza do agente. Vamos
agora estudar algumas regras de deciso que supe que o agente representa sua incerteza a
respeito do verdadeiro estado da natureza por um conjunto de medidas de probabilidade.
Dado um conjunto P de medidas de probabilidade, dena
E
P
(u
a
) = inf
PrP
{E
Pr
(u
a
) : Pr P}.
Autor: Leandro Chaves Rgo
2.2. ESCOLHA SOB INCERTEZA. 16
Considere a regra de deciso 1 que estabelece que a
1
P
a

se, e somente se, E


P
(u
a
) >
E
P
(u
a
). A intuio por trs desta primeira regra parecida com a regra de Maximin,
pois estamos otimizando o pior valor esperado possvel. De fato, se P
S
consiste de todas
medidas de probabilidade em S, ento E
P
S
(u
a
) = pior
u
(a). Note que a ordem de preferncia
segundo a regra Maximin coincide com
1
P
S
. Contudo, em geral,
1
P
pode tirar vantagem
de informaes extras, se P for um subconjunto estrito de P
S
.
Podemos tambm denir uma regra que tem a mesma intuio por trs da regra de
Maximax, ou seja, maximizaremos o melhor valor esperado. Para tanto, dena E
P
(u
a
) =
sup
PrP
{E
Pr
(u
a
) : Pr P}. Esta regra de deciso 2 estabelece que a
2
P
a

se, e somente se,


E
P
(u
a
) > E
P
(u
a
).
Podemos ainda denir uma outra regra de deciso segundo a qual uma ao a s melhor
que uma outra ao a

se o pior valor esperado da ao a for melhor que o melhor valor


esperado segundo a

. Esta regra de deciso extremamente conservadora. Formalmente,


esta regra de deciso 3 estabelece que a
3
P
a

se, e somente se, E


P
(u
a
) > E
P
(u
a
).
Finalmente, pode-se denir uma quarta regra de deciso segundo a qual ao a melhor
que outra ao a

se para toda medida de probabilidade Pr P temos que o valor esperado


de a segundo Pr maior que o valor esperado de a

segundo Pr. Formalmente, temos que


a
4
P
a

se, e somente se, E


Pr
(u
a
) > E
Pr
(u
a
), Pr P.
Proposio 2.2.8: a
3
P
a

implica a
4
P
a

.
Prova: Exerccio.
2.2.2 Qual a Regra Correta?
Uma maneira de determinar a regra correta caracterizar as regras atravs de axiomas, ou
seja, caracterizar que propriedades uma relao de preferncia sobre as aes deve satisfazer
de modo que ela possa ser representada por MUE, Maximin, Minimax arrependimento, . . . .
Veremos uma caracterizao axiomtica da regra MUE na Seo 2.2.3. Podemos tambm
considerar exemplos.
Exemplo 2.2.9: Rawls vs. Harsanyi
Qual de duas sociedades cada uma com 1000 pessoas melhor:
Sociedade 1: 900 pessoas tm utilidade 90, 100 tm utilidade 1.
Sociedade 2: todos tm utilidade 35.
Transformando em um problema de deciso, temos duas aes:
1. viver na Sociedade 1
2. viver na Sociedade 2
Podemos ainda descrever 1000 estados, onde no estado i, o agente ser a pessoa i. Rawls
arma que devemos usar a regra de Maximin para decidir, enquanto Harsanyi arma que
devemos usar o princpio da razo insuciente. E voc o que decide?
Autor: Leandro Chaves Rgo
2.2. ESCOLHA SOB INCERTEZA. 17
Se voc gostar de Maximin, considere Sociedade 1

, onde 999 pessoas tm utilidade


100, e 1 tem utilidade 34. Neste caso, teramos
Sociedade 2 Sociedade 1

Sociedade 1.
Contudo, a grande maioria das pessoas prefeririam viver na Sociedade 1

que na Soci-
edade 2.
Se voc preferir o princpio da razo insuciente, considere Sociedade 1

, onde 1 pessoa
tem utilidade 100.000, e 999 tm utilidade 1. Neste caso, teramos
Sociedade 1

Sociedade 1 Sociedade 2.
Contudo, a grande maioria das pessoas prefeririam viver na Sociedade 2 que na Soci-
edade 1

.
Suponha agora que o agente possa escolher aes aleatoriamente, isto , a ao pa +
(1 p)a

seja igual a escolha a com probabilidade p e a

com probabilidade 1 p. Por


exemplo, voc pode jogar uma moeda viesada para decidir o que fazer. Poderamos esperar
que se a a

, ento a pa + (1 p)a

. Porm, isto no sempre verdadeiro para as regras


de Minimax, Maximax e Otimismo-Pessimismo se assumirmos que u(pa + (1 p)a

, s) =
pu(a, s) + (1 p)u(a

, s). Considere o seguinte exemplo:


Exemplo 2.2.10:
s
1
s
2
a
1
2 0
a
2
0 2
De acordo com a regra do otimismo-pessimismo a
1
a
2
(para todos os ndices ).
Mas a
1

1
2
a
1
+
1
2
a
2
(exceto quando = 1/2).
Escolher aleatoriamente pode ser melhor dependendo da regra de deciso que se adota!
Note tambm que u(pa + (1 p)a

, s) = pu(a, s) + (1 p)u(a

, s) no compatvel com
transformao ordinal das utilidades. Por exemplo, se f(x) = x
3
, ento f(1) = (f(0) +
f(2))/2.
Recorde que as preferncias podem se alterar quando consideramos a regra de minimizar
o arrependimento e adicionamos uma nova ao irrelevante, isto , podemos acrescentar
ao a
3
e mudar a preferncia entre a
1
e a
2
.
Estes fatos sugerem que regras baseadas em argumentos probabilsticos devem ser me-
lhores. Porm, note que no necessariamente temos que maximizar a utilidade esperada
para utilizar a probabilidade de maneira razovel. Considere por exemplo, o problema de
Autor: Leandro Chaves Rgo
2.2. ESCOLHA SOB INCERTEZA. 18
aceitar ou no uma loteria que paga R$10.000, 00 com probabilidade 0,95 e onde voc tem
que pagar R$200.000, 00 com probabilidade 0,05. Podemos adotar o procedimento de esco-
lher a ao que nos garante o melhor resultado com probabilidade maior ou igual a 0,95.
isto que fazemos frequentemente quando adotamos intervalos de conana de 0,95, ou
quando, especicamos o nvel de signicncia de um teste de hiptese. Podemos imaginar
regras que utilizem outros tipos de informao, como varincia, mediana, para determinar
que ao escolher. Vimos tambm que em algumas situaes podemos utilizar conjuntos de
probabilidades para modelar a incerteza e desta forma utilizar regras que se baseiam neste
conceito. Veremos na seo a seguir uma justicativa para utilizao da regra da utilidade
esperada. Como veremos mais adiante nesta regra que se baseiam diversos conceitos de
solues de jogos.
2.2.3 Representao Cardinal
Em jogos veremos que existem dois tipos de incerteza: subjetiva e objetiva. A incerteza
objetiva pode surgir, por exemplo, de dispositivos aleatrios como moedas honestas, dados
perfeitos, roletas balanceadas, urnas com bolas coloridas, etc. A incerteza subjetiva pode
surgir, por exemplo, da ignorncia de algum jogador com respeito as estratgias utilizadas
pelos demais. Nesta seo seguiremos a teoria da escolha sob incerteza segundo Anscombe
e Aumann.
Considere um conjunto Z de consequncias (ou prmios). Seja S o conjunto de todos
os estados da natureza ou estados do mundo. Assumiremos por simplicidade que Z e S
so nitos. Dado um conjunto enumervel qualquer B denotaremos por (B), o conjunto
de todas as distribuies de probabilidade em (B, 2
B
). Tome um conjunto F de aes
f : S (Z) como o conjunto sobre o qual o agente ter que expressar preferncias. Note
que a consequncia de uma dada ao f depende do estado da natureza. Deste modo o agente
pode ter incerteza subjetiva a respeito do verdadeiro estado da natureza e consequentemente
incerteza subjetiva sobre as consequncias de suas aes. Alm disso, dado um estado da
natureza f(s) descreve a incerteza objetiva com as quais cada consequncia ser obtida se o
agente escolher a ao f e o verdadeiro estado da natureza for s.
Exemplo 2.2.11: Suponha que o agente chamado a escolher entre duas aes. Se ele
escolher a primeira, ganhar R$1000 se o Santa Cruz for o prximo campeo pernambucano
de futebol, e no ganhar nada se o Santa Cruz no for o campeo. Se ele escolher a segunda
ao, ele ganhar R$1000 se uma moeda honesta cair cara quatro vezes em quatro jogadas
independentes, e no ganhar nada em caso contrrio. Podemos representar isto utilizando
nosso modelo segundo Anscombe e Aumann da seguinte maneira: Z = R$0, R$1000, S =
{s
1
, s
2
}, onde s
1
representa o estado em que o Santa campeo, e s
2
representa o estado
em que o Santa no campeo. F = {f
1
, f
2
}, onde f
1
(s
1
)(R$1000) = 1, f
1
(s
2
)(R$0) = 1,
f
2
(s
1
)(R$1000) = f
2
(s
2
)(R$1000) = (1/2)
4
e f
2
(s
1
)(R$0) = f
2
(s
2
)(R$0) = 1 (1/2)
4
.
Abusaremos um pouco da notao e eventualmente para p (Z) denotaremos por p a
ao constante que igual a p em todos os estados da natureza. Para quaisquer duas aes
f, g F e para todo a [0, 1], seja af + (1 a)g a seguinte ao:
(af + (1 a)g)(s) = af(s) + (1 a)g(s), s S.
Autor: Leandro Chaves Rgo
2.2. ESCOLHA SOB INCERTEZA. 19
Denotamos por f
s
g a ao que igual a g em s, e igual a f nos demais estados da natureza.
Exemplo 2.2.12: Seja S = {1, 2}, Z = {10, 15, 20, 25, 30}, f(1)(10) = 0,5, f(1)(15) = 0,3,
f(1)(20) = 0,2, f(2)(20) = 1, g(1)(20) = 0,5, g(1)(25) = 0,5, g(2)(20) = 0,6, e g(2)(30) =
0,4. Ento, se h = 0,6f + 0,4g, temos
h(1)(10) = 0,6f(1)(10) + 0,4g(1)(10) = 0,3
h(1)(15) = 0,6f(1)(15) + 0,4g(1)(15) = 0,18
h(1)(20) = 0,6f(1)(20) + 0,4g(1)(20) = 0,12 + 0,2 = 0,32
h(1)(25) = 0,6f(1)(25) + 0,4g(1)(25) = 0,2
h(2)(20) = 0,6f(2)(20) + 0,4g(2)(20) = 0,6 + 0,24 = 0,84
h(2)(30) = 0,6f(2)(30) + 0,4g(2)(30) = 0,16.
Se h

= f
1
g, temos
h

(1)(20) = g(1)(20) = 0,5


h

(1)(25) = g(1)(25) = 0,5


h

(2)(20) = f(2)(20) = 1
A princpio no claro que existe alguma maneira de quanticar a incerteza subjetiva
do agente a respeito do verdadeiro estado da natureza. Alm disso, mesmo que esta medida
de incerteza exista no claro se poderemos combin-la com a maneira que o agente escolhe
diante do risco, ou seja, escolhe entre distribuies de probabilidade sobre as consequncias,
nem se tal medida de incerteza subjetiva independente dos riscos envolvidos (estados
mais arriscados poderiam ter uma maior probabilidade subjetiva?). Vericaremos que se
as preferncias do agente satisfazem alguns axiomas de racionalidade, encontraremos uma
representao da seguinte forma: Existem funes : S [0, 1] com

sS
(s) = 1 e
u : Z IR tal que f, f

F
f f

se, e somente se,

sS
(s)[

zZ
f(s)(z) u(z)] >

sS
(s)[

zZ
f

(s)(z) u(z)],
onde f(s)(z) representa a probabilidade que a ao f, quando o verdadeiro estado da natu-
reza s, d a consequncia z.
Ou seja, estamos interessados em um representao onde cada estado da natureza possui
uma probabilidade associada que independente das probabilidades sobre as consequncias
e cada consequncia possui uma utilidade u de tal forma que a escolha entre as aes
tomada de acordo com a utilidade esperada da funo utilidade u.
Um estado da natureza s dito ser nulo se f g para todos os pares de aes f, g F
que so iguais em todos os estados da natureza exceto possivelmente em s, ou seja, um
estado s nulo se no podemos encontrar aes que diferem apenas no estado s e que no
sejam indiferentes.
Autor: Leandro Chaves Rgo
2.2. ESCOLHA SOB INCERTEZA. 20
Considere os seguintes axiomas.
Axioma 1. em F uma relao de preferncia, ou seja, assimtrica e transitiva
negativa.
Sobre o Axioma 1, vimos na Seo 2.1.2, que a hiptese de transitividade negativa pode
causar algumas diculdades com respeito a nossa intuio sobre a noo de preferncia.
Axioma 2. f g e a (0, 1] implica que af + (1 a)h ag + (1 a)h, para todo
h F.
O Axioma 2 frequentemente conhecido como axioma da substituio ou da indepen-
dncia. Usualmente, utiliza-se um argumento enganoso para motivar este axioma em termos
de aes compostas. Ou seja, pensasse af + (1 a)h como sendo uma ao que igual a
f quando um evento A de probabilidade a > 0 ocorre e igual a h no caso contrrio. Deste
modo, nica diferena entre af +(1 a)h e ag +(1 a)h o que acontece quando o evento
A ocorre. Logo, seria intuitivo requerer que se f g, ento af +(1a)h ag +(1a)h. O
problema com este tipo de argumento que af +(1a)h no uma ao composta, quando
se expressa a preferncia por toda a ao af + (1 a)h sobre a ao ag + (1 a)h no
somente pela parte que ocorreria se o evento A ocorresse. Veremos mais adiante que este
axioma frequentemente violado quando analisa-se o comportamento de agentes na prtica.
Axioma 3. f f

implica que existem a, b (0, 1) tal que af + (1 a)f


bf +(1b)f

. Este axioma chamado de axioma arquimediano ou axioma da continuidade.


Ele implica que no existe nenhuma ao f to boa tal que para f

, no importa quo
pequena seja a probabilidade b, uma probabilidade b de f e uma probabilidade 1 b de f

sempre melhor que f

. Similarmente, no existe nenhuma ao f

to ruim tal que para


f f

, no importa quo grande seja a probabilidade a, uma probabilidade a de f e 1a de


f

sempre pior que f

. Poderamos tentar argumentar que este axioma no vlido, pois por


exemplo a ao que nos d como consequncia a morte em todos os estados da natureza seria
innitamente ruim e qualquer ao que d ao agente uma probabilidade de morte positiva
no importa quo pequena deve ser realmente pior para o agente. Este argumento, contudo
no vlido pois frequentemente agentes tomam aes que tem probabilidades positivas de
acabar em morte. Por exemplo, atravessar uma avenida movimentada, andar de moto, e
viajar de avio! Deste modo comprova-se que agentes no avaliam a consequncia morte
como sendo innitamente ruim.
Axioma 4. Existem f, g F tais que f g.
Este axioma apenas implica que o agente prefere alguma coisa entre as opes disponveis.
Caso contrrio todas as consequncias tem a mesma utilidade para o agente e estamos em
um caso trivial e pouco interessante.
Axioma 5. Se f F, p, q (Z), e f
s
p f
s
q, ento para todo estado no-nulo s

temos f
s
p f
s
q.
Este axioma assegura que as preferncias so independentes do verdadeiro estado da
natureza. Esta suposio inadequada para muitas aplicaes. Por exemplo, suponha que
S = {sol, chuva}. Seja p uma distribuio de probabilidade que d probabilidade 1 ao
prmio que consiste de um pacote de equipamentos que contm um guarda-chuva, seja q
uma distribuio de probabilidade que d probabilidade 1 ao um prmio que consiste do
mesmo pacote de equipamentos anterior mas no contm o guarda-chuva. No estado chuva,
o agente provavelmente preferir p a q, mas no estado sol pode ser indiferente entre essas
Autor: Leandro Chaves Rgo
2.2. ESCOLHA SOB INCERTEZA. 21
duas distribuies. Este exemplo, no pode ser modelado por uma representao onde a
utilidade independente dos estados da natureza.
O prximo teorema prova que estes axiomas so necessrios e sucientes para a repre-
sentao que desejamos.
Teorema 2.2.13: Axiomas 15 so necessrios e sucientes para que existam uma funo
no constante u : Z IR e uma distribuio de probabilidade em S tal que
f g se, e somente se,

sS
(s)[

zZ
u(z)f(s)(z)] >

sS
(s)[

zZ
u(z)g(s)(z)].
Alm disso, a distribuio de probabilidade nica, e u nica exceto por uma transfor-
mao positiva am nesta representao.
Prova: Omitida. Maiores detalhes podem ser vistos em Kreps (1988).
Nos jogos que se seguem deniremos jogadores como racionais se eles escolhem aes
(estratgias) que maximizam suas utilidades esperadas. Deste modo estamos implicitamente
admitindo que os Axiomas 1-5 denem o que so preferncias racionais. Contudo, impor-
tante ter em mente que conforme discutimos acima existem situaes em que esses axiomas
no so razoveis, e portanto, no deve-se esperar que jogadores escolham suas aes basea-
dos no critrio de maximizao da utilidade esperada. Na prxima seo discutiremos alguns
Paradoxos famosos da Teoria da Utilidade Esperada.
2.2.4 Paradoxos
Paradoxo de Newcomb
Suponha que um ser superior lhe apresenta duas caixas, uma aberta e uma fechada. A caixa
aberta contm R$1.000. Na caixa fechada ou acabou de ser colocado R$0 ou R$1.000.000
pelo ser superior. Voc pode escolher a caixa fechada ou ambas caixas. Voc recebe o que
estiver nas caixas. Porm, existe um problema o ser superior pode predizer o que humanos
faro. Se o ser predizer que voc escolher ambas as caixas, ele coloca R$0 na caixa fechada.
Se ele predizer que voc, escolher apenas a caixa fechada, ele colocar R$1.000.000 na caixa
fechada. O ser superior acertou 999 das ltimas 1000 vezes em que este experimento foi
realizado. O que voc deve fazer?
Os estados da natureza e as aes disponveis neste problema so:
s
1
: O ser superior colocou 0 na caixa fechada
s
2
: O ser superior colocou 1.000.000 na caixa fechada
a
1
: escolha ambas as caixas
a
2
: escolha apenas a caixa fechada
s
1
s
2
a
1
$1.000 $1.001.000
a
2
$0 $1.000.000
Autor: Leandro Chaves Rgo
2.2. ESCOLHA SOB INCERTEZA. 22
Raciocnio por dominncia sugere que devemos escolher a
1
. Mas dominncia no apro-
priado se estados e aes no so independentes. A regra da maximizao da utilidade
esperada estabelece que se aes e estados no so independentes ns precisamos calcular
Pr(s
i
| a
j
). Portanto, neste exemplo Pr(s
1
| a
1
) = .999 e Pr(s
2
| a
2
) = .999. Ento, deve-se
escolher a ao a que maximize Pr(s
1
| a)u(s
1
, a) + Pr(s
2
| a)u(s
2
, a). Neste caso, ento
deve-se escolher a
2
. Isto est realmente correto? O dinheiro ou est na caixa ou no est
. . . . Considere a seguinte aplicao que um exemplo mais concreto deste paradoxo:
Exemplo 2.2.14: Os fatos
Fumar altamente correlacionado com doenas coronarianas.
Doenas coronarianas tm fundo gentico.
Doenas coronarianas so mais comuns em pessoas com personalidade do tipo A.
Suponha que ter personalidade do tipo A hereditrio e que pessoas com este tipo de
personalidade tm uma maior tendncia a fumar. Esta a razo por que fumar correlacio-
nado com doenas coronarianas. Suponha que voc tem personalidade do tipo A. Voc deve
fumar? Voc tem um problema de deciso similar ao paradoxo de Newcomb. Porm, o fato
que Pr(doena coronariana | fumar) alta no deveria lhe impedir de fumar. Pois fumar
apenas correlacionado doena coronariana e no causa doena coronariana, ento voc no
tem nada a perder por fumar!
Ento, antes de aplicar a regra de MUE no caso de estados e aes dependentes, devemos
considerar se nossas aes causam uma mudana de estado ou se nossas aes apenas esto
correlacionadas com os estados. Portanto, no paradoxo de Newcomb, voc deve escolher
ambas as caixas a no ser que voc acredite que escolher ambas as caixas causa a segunda
caixa estar vazia!
Paradoxo de Ellsbergue
Suponha que existam duas urnas cada uma com 60 bolas. A urna 1 contm 30 bolas azuis
e 30 bolas verdes. Tudo que se sabe sobre a urna 2 que ela contm bolas azuis e verdes,
mas no sabe-se a distribuio das bolas. Considere que existem duas loteria com prmios
baseados no sorteio de bolas dessas urnas. Loteria L
1
paga R$1.000,00 se uma bola azul for
sorteada na urna 1, e R$0,00 caso contrrio. Loteria L
2
paga R$1.000,00 se uma bola azul for
sorteada na urna 2, e R$0,00 caso contrrio. A maioria das pessoas quando questionada se
prefere um bilhete da Loteria L
1
ou L
2
prefere um bilhete da loteria L
1
. Suponha agora que
temos duas outras loterias L
3
e L
4
, onde a primeira paga R$1.000,00 somente se uma bola
verde for sorteada da urna 1, e a segunda para R$1.000,00 somente se uma bola verde for
sorteada da urna 2. Tambm, vericado que a maioria das pessoas que preferiram a loteria
L
1
a loteria L
2
preferem a loteria L
3
a loteria L
4
. Com estas preferncias, no possvel
que o decisor possua uma nica distribuio de probabilidade subjetiva sobre as cores das
bolas na urna 2, pois a primeira preferncia (L
1
sobre L
2
) indica que o decisor considera que
existam mais bolas verdes que azuis na urna 2, e a segunda (L
3
sobre L
4
) indica que o decisor
Autor: Leandro Chaves Rgo
2.2. ESCOLHA SOB INCERTEZA. 23
considera que existam mais bolas azuis que verdes na urna 2. Esse fenmeno conhecido
na literatura como averso a ambiguidade, e pode-se modelar a incerteza do decisor por um
conjunto de medidas de probabilidade ao invs de uma nica medida de probabilidade e que
o decisor utiliza a regra 1 discutida na Seo 2.2.1.
Paradoxo de Allais
Suponha que existam 4 loterias A, B, C, e D. Voc chamado a escolher entre a loteria
A que lhe paga R$2.500, 00 com probabilidade 0,33, R$2.400, 00 com probabilidade 0,66,
e R$0, caso contrrio; e a loteria B que lhe paga R$2.400, 00 com probabilidade 1. Voc
tambm chamado a escolher entre a loteria C que lhe paga R$2.500, 00 com probabilidade
0,33, R$0 com probabilidade 0,67; e a loteria D que lhe paga R$2.400, 00 com probabilidade
0,34, R$0 com probabilidade 0,66. A maioria das pessoas preferem B na primeira situao
e C na segunda situao. Estas escolhas sugerem que pessoas no utilizam a regra da
utilidade esperada para escolher entre as alternativas, pois B A implica que u(2400) >
0,33u(2500) + 0,66u(2400) + 0,01u(0), o que equivalente a 0,34u(2400) > 0,33u(2500) +
0,01u(0). Similarmente, C D implica que 0,33u(2500)+0,67u(0) > 0,34u(2400)+0,66u(0),
o que equivalente a 0,33u(2500) + 0,01u(0) > 0,34u(2400). Uma inconsistncia. Portanto,
as preferncias expressas pela maioria das pessoas indica que elas so inconsistentes com o
princpio da maximizao da utilidade esperada. Portanto, essas preferncias devem violar
algum entre os Axiomas 1 a 5. Voc consegue determinar que axioma esse? (Exerccio)
A explicao mais comum para a falha da MUE neste exemplo a falta de habilidade das
pessoas para diferenciar pequenas diferenas de probabilidade; 0,33 e 0,34 parecem iguais
e as pessoas tendem a focar na diferena de valores. Porm 0,01 e 0 parecem diferentes (a
segunda lhe d certeza plena que o evento no ocorre) e as pessoas tendem focar na diferena
de probabilidade. A Teoria dos Prospectos de (Kahnemann and Tversky) resolve o Paradoxo
de Allais colocando um peso diferente nas probabilidades de acordo com a importncia que
agentes tendem a dar a estas.
Autor: Leandro Chaves Rgo
Captulo 3
Jogos em Forma Normal
3.1 Denio
Teoria dos jogos pode ser pensada como um problema de deciso que envolve mais de um
agente. Neste captulo, estaremos interessados em estudar jogos estticos, ou seja, jogos em
que os agentes se movem simultaneamente e uma nica vez. Estes jogos so conhecidos na
literatura como jogos em formal normal ou estratgica. Todo jogo em forma normal tem as
seguintes componentes
1. Existe um conjunto de agentes ou jogadores N.
2. Cada jogador i pode escolher aes de um conjunto de estratgias (puras) ou aes C
i
.
O resultado do jogo denido pelo perl de estratgias que consiste de todas as
estratgias escolhidas pelos jogadores individuais. Matematicamente, o conjunto
de pers de estratgias dado por C =
iN
C
i
.
3. Jogadores tm preferncia sobre os possveis resultados do jogo. Em geral, o perl
de estratgias escolhido pelos jogadores determina uma distribuio de probabilidade
sobre possveis consequncias, assumiremos que os jogadores agem como se possussem
uma funo utilidade no conjunto de possveis consequncias e avaliam uma distribui-
o de probabilidade sobre as possveis consequncias pelo valor esperado da utilidade
segunda esta dada distribuio. Dessa forma, para cada possvel perl de estratgias
o jogador avaliar este perl pelo valor da utilidade esperada das consequncias, onde
o valor esperado calculado utilizando a distribuio de probabilidades induzida pelo
conjunto de aes. Quando estuda-se jogos, o que se chama resultado, pagamento ou
utilidade de um perl de estratgia o valor da utilidade esperada das consequncias
induzidas pelo perl. Portanto, de agora em diante assumiremos que os jogadores re-
cebem um certo pagamento ou tem uma certa utilidade para cada possvel perl de
estratgias, mas importante ter em mente que na verdade jogadores no possuem pre-
ferncias (ou utilidades) sobre pers de estratgias mas, sim, uma utilidade esperada
sobre as consequncias induzidas pelo perl de estratgia. Note que um jogador precisa
saber no somente de sua prpria estratgia mas tambm das estratgias dos demais
24
3.2. ALGUNS EXEMPLOS IMPORTANTES 25
jogadores para determinar o resultado do jogo, pois em geral, o resultado do jogo de-
pende das estratgias de todos os jogadores envolvidos. Portanto, o que importa para
os jogadores so os resultados do jogo, ou os pers de estratgias, no suas prprias
estratgias. Claro que suas aes fazem parte do perl de estratgia e portanto inu-
enciam no resultado do jogo, mas para cada ao de um dado jogador podem existir
vrios resultados possveis. Portanto, temos que para cada possvel perl de estratgia
c C, cada jogador i N avalia c de acordo com um nmero u
i
(c). Esta funo
u
i
ser denominada de funo utilidade ou pagamento do jogador i. Formalmente,
u
i
: C IR, i N.
Quando temos dois jogadores, toda esta informao pode ser expressa convenientemente
em uma matriz como a mostrada a seguir:
E C
E 1,1 0,0
C 0,0 1,1
Nesta matriz o jogador 1 escolhe uma das linha E ou C, e jogador 2 escolhe uma das
colunas E ou C. Cada clula da matriz tem um par de nmeros onde a primeira componente
representa a utilidade do jogador 1 e a segunda componente representa a utilidade do jogador
2.
Note que o fator tempo no est presente em um jogo em forma normal. A idia que
cada jogador escolhe sua estratgia uma vez por todas e que os jogadores escolhem suas
estratgias simultaneamente, no sentido de que eles no possuem informao a respeito das
escolhas dos outros jogadores antes das suas escolhas. Apesar disto, uma estratgia pode
envolver escolhas que acontecem ao passar do tempo. Por exemplo, uma estratgia pode
depender de resultados de acontecimentos do futuro, por exemplo, se a cotao do dlar
baixar de R$1,50, passarei frias no exterior, caso contrrio, passarei frias no Brasil. O fato
que o tempo no est no modelo signica que quando analisamos a situao como um jogo
em forma normal, desconsideramos as complicaes que podem surgir quando permitimos
que um jogador mude de estratgia quando os eventos ocorrem. Tambm assumimos que os
jogadores fazem sua escolha de modo independente, ou seja, os jogadores no podem escolher
estratgias que dependem das escolhas dos outros jogadores.
3.2 Alguns Exemplos Importantes
3.2.1 Batalha dos Sexos
Suponha que um casal est decidindo em que local a famlia vai passear no prximo domingo.
Existem duas opes: passar o dia no shopping center, ou passar o dia na praia. Suponha
que o marido (jogador 1) prefere ir a praia e a esposa (jogador 2) prefere ir ao shopping. Mas
ambos ganham alguma utilidade em ir juntos ao mesmo local. Irem para locais diferentes
tem utilidade zero para ambos. A matriz de pagamentos desse jogo a seguinte:
Autor: Leandro Chaves Rgo
3.2. ALGUNS EXEMPLOS IMPORTANTES 26
S P
S 1,2 0,0
P 0,0 2,1
O interessante neste jogo que jogadores tm um incentivo a escolherem juntos ao invs
de um contra o outro, pois ambos se do melhor se eles escolhem a mesma ao. O prximo
exemplo ocorre exatamente o oposto, a soma das utilidades de cada resultado do jogo para
os jogadores igual a zero (ou a uma constante).
3.2.2 Jogos de Soma-Zero
Em jogos de soma-zero qualquer ganho de uma das partes provoca uma perda de igual
utilidade para os outros jogadores. Pense, por exemplo, em como dividir uma pizza. O
tamanho da pizza no se altera, precisamos apenas saber como distribuir a pizza entre
os jogadores. O jogo de soma-zero mais simples conhecido como combinando centavos
(matching pennies). Este jogo contm dois agentes, onde o agente 1 ganha um real do
agente 2 se ambos escolherem a mesma ao, e perde um real em caso contrrio:
H T
H 1,-1 -1,1
T -1,1 1,-1
3.2.3 Medindo Foras
Neste jogo suponha que temos dois jovens dirigindo para casa em uma rua estreita com seus
carros, e em direes opostas. Nenhum deles quer sair do caminho, quem sair do caminho
considerado como fraco e perde seu orgulho, enquanto o outro ganha fama de forte. Porm,
se ambos no saem do caminho, eles se acidentam gravemente. Se ambos saem do caminho,
nenhum deles ca feliz ou infeliz.
F S
F -20,-20 10,-5
S -5,10 0,0
3.2.4 Dilema do Prisioneiro
Este jogo provavelmente o mais famoso de todos. A estria que dois prisioneiros so
interrogados. Se ambos cooperarem no julgamento, eles saem cada um com um ano de
priso. Se ambos delatarem um ao outro, eles pegam cada um 3 anos de cadeia. Se um
cooperar e o outro delatar, ento aquele que cooperar vai a priso por 5 anos, e o delator sai
livre.
D C
D -3,-3 0,-5
C -5,0 -1,-1
Autor: Leandro Chaves Rgo
3.2. ALGUNS EXEMPLOS IMPORTANTES 27
Note que o melhor resultado se os jogadores decidirem juntos (C, C), o que tm a
maior soma de utilidades. O resultado (D, D) o pior possvel se considerarmos a soma das
utilidades de ambos jogadores, e pior do que o resultado (C, C) para ambos os jogadores.
Ento claramente, (D, D) parece ser um pssimo resultado.
Alguns exemplos prticos onde o Dilema do Prisioneiro pode surgir so os seguintes:
Corrida Armamentista. Dois pases entram em uma corrida armamentista. Ambos
gostariam de gastar seu dinheiro com o sistema de sade (C), por exemplo, mas se um
deles gasta dinheiro com o sistema de sade (C), e o outro gasta dinheiro em armas
(D), o primeiro pas ser invadido.
Escudo Anti-Mssil. Os EUA (Pas 1) podem tanto construir um sistema de defesa anti-
mssil (D) como no construir tal sistema (C). Rssia (Pas 2) pode tanto construir
mais msseis (D) como no construir mais msseis (C). Se os EUA no construirem o
sistema anti-mssil, e a Russia no construir mais msseis, ento ambos pases esto
razoavelmente bem. Se a Rssia construir mais msseis e os EUA no tiverem o sistema
anti-mssil, ento os EUA se sentiro muito inseguros. Se os EUA construrem um
escudo anti-mssil, e a Rssia no construir msseis, ento os EUA esto felizes, mas
a Rssia se sente insegura. Se os EUA construrem o sistema anti-mssil e a Rssia
construir mais msseis, ento eles esto com o mesmo grau de insegurana que no caso
(C, C), mas eles esto piores pois tm menos recursos para investir em outras reas.
Mercado de Aviao. O mercado da aviao um exemplo do dilema do prisioneiro na
rea empresarial. Como todo servio, o problema com a passagem area que, uma
vez que o avio levanta vo, cada assento no vendido uma perda. No possvel
estocar a vaga para vend-la depois. Alm de deixar de ganhar com mais uma venda,
as empresas areas ainda tm de arcar com o prejuzo de colocar o avio no ar, que
no muda muito pela lotao. Portanto, a motivao para uma empresa baixar seus
preos, principalmente em vos difceis de vender, muito alta. Como a maioria das
pessoas no faz distino de companhias areas, desde que chegue a seu destino, a
empresa com preos mais baixos tende a voar com a maior lotao possvel, enquanto
as concorrentes agonizam com os prejuzos. Essa dinmica pode chegar ao extremo de
empresas competindo por clientes enquanto sabidamente tm prejuzo em alguns vos,
simplesmente por ser pior para elas voarem vazias do que com um prejuzo diminudo.
3.2.5 Duoplio de Cournot
Este jogo tem um conjunto de estratgia innito. Duas rmas escolhem o nvel de produo
q
i
e tm custos de produo c
i
(q
i
). Os produtos no so diferenciveis e a demanda de
mercado determina um preo unitrio de p(q
1
+ q
2
). Note que esta especicao assume
que os produtos so substitutos perfeitos. Neste caso, temos N = {1, 2}, C
1
= C
2
= IR
+
,
u
1
(q
1
, q
2
) = q
1
p(q
1
+ q
2
) c
1
(q
1
), e u
2
(q
1
, q
2
) = q
2
p(q
1
+ q
2
) c
2
(q
2
).
Autor: Leandro Chaves Rgo
3.3. RACIONALIZABILIDADE E DOMINNCIA 28
3.2.6 Duoplio de Bertrand
Este duoplio pode ser visto como em oposio ao duoplio de Cournot. Firmas continuam
produzindo produtos que so substitutos perfeitos, mas agora elas determinam o preo.
Consumidores compram da rma com menor preo, e se ambas cobrarem o mesmo preo
elas dividem a demanda igualmente. Ambas rmas tm o mesmo custo unitrio c > 0, so
capazes de atender toda a demanda solicitada, e s produzem produtos que tm demanda.
A demanda varia linearmente com o preo, ou seja, D = a b(min(p
1
, p
2
)), onde b > 0, e
a bc > 0. Neste caso, temos N = {1, 2}, C
1
= C
2
= IR
+
,
u
1
(p
1
, p
2
) =
_
_
_
(p
1
c)(a bp
1
) se p
1
< p
2
,
(p
1
c)
(abp
1
)
2
se p
1
= p
2
,
0 se p
1
> p
2
,
e
u
2
(p
1
, p
2
) =
_
_
_
0 se p
1
< p
2
,
(p
2
c)
(abp
2
)
2
se p
1
= p
2
,
(p
2
c)(a bp
2
) se p
1
> p
2
.
3.3 Racionalizabilidade e Dominncia
Experimento 7: Suponha que voc o jogador 1, ou seja tem que escolher uma das linhas
da matriz abaixo. Qual a sua escolha? Justique sua resposta.
A B C D
A 5,2 2,6 1,4 0,4
B 0,0 3,2 2,1 1,1
C 7,0 2,2 1,5 5,1
D 9,5 1,3 0,2 4,8
Como agentes jogam um jogo? Nesta seo iremos encontrar solues para alguns jogos
partindo da suposio que agentes so racionais, isto escolhem estratgias que maximizam
suas utilidades esperadas, e que cada agente sabe que os outros agentes tambm so racionais.
3.3.1 Comportamento Racional
Assuma que o agente i tem crenas descritas por uma distribuio de probabilidade
i
sobre
as estratgias utilizadas pelos outros agentes do jogo. Se s um perl de estratgias de um
jogo, denotaremos por s
i
todas as estratgias deste perl exceto a estratgia do agente i.
Denio 3.3.1: Uma estratgia s
i
uma escolha racional para o agente i com crena
i
se
s
i
argmax
t
i
C
i

s
i
C
i
u
i
(t
i
, s
i
)
i
(s
i
).
Autor: Leandro Chaves Rgo
3.3. RACIONALIZABILIDADE E DOMINNCIA 29
Note, que dado que o agente i possui crena
i
, ele est diante de um problema de deciso
sob incerteza. E conforme armamos ao m da seo anterior, para jogos consideraremos
que agentes devem utilizar a regra MUE.
Denio 3.3.2: Dado qualquer conjunto enumervel B, seja (B) = { : (B, 2
B
, ) um
espao de probabilidade}, isto (B) o conjunto de todas as medidas de probabilidade
denidas na -lgebra 2
B
. Se C
i
o conjunto de estratgias puras para o agente i,
i
(C
i
)
uma estratgia randomizada ou mista para o agente i. Denotaremos por [s
i
] a estratgia
randomizada que escolhe a estratgia pura s
i
com probabilidade 1.
Denio 3.3.3: Estratgia s
i
C
i
estritamente dominada para o agente i se existe
alguma estratgia randomizada
i
(C
i
) tal que
u
i
(s
i
, s
i
) <

d
i
C
i

i
(d
i
)u
i
(d
i
, s
i
), s
i
C
i
.
Similarmente, uma estratgia s
i
C
i
fracamente dominada se para o agente i se existe
alguma estratgia randomizada
i
(C
i
) tal que
u
i
(s
i
, s
i
)

d
i
C
i

i
(d
i
)u
i
(d
i
, s
i
), s
i
C
i
, e
existe s
i
C
i
tal que a desigualdade estrita.
Em palavras, uma s
i
estratgia estritamente dominada se existe uma outra estratgia
(randomizada) que sempre melhor que s
i
; e s
i
fracamente dominada se existe uma
outra estratgia (randomizada) que nunca pior que s
i
e em pelo menos uma situao
estritamente melhor que s
i
.
Proposio 3.3.4: Se o agente i racional ele nunca jogar uma estratgia estritamente
dominada.
Prova: Se uma estratgia s
i
C
i
estritamente dominada por
i
(C
i
), ento
u
i
(s
i
, s
i
) <

d
i
C
i

i
(d
i
)u
i
(d
i
, s
i
), s
i
C
i
.
Logo, para qualquer crena
i
, temos

s
i

i
(s
i
)u
i
(s
i
, s
i
) <

s
i

i
(s
i
)

d
i
C
i

i
(d
i
)u
i
(d
i
, s
i
).
Trocando a ordem dos somatrios, temos:

s
i

i
(s
i
)u
i
(s
i
, s
i
) <

d
i
C
i

i
(d
i
)

s
i

i
(s
i
)u
i
(d
i
, s
i
).
Portanto, existe d
i
C
i
tal que

s
i

i
(s
i
)u
i
(s
i
, s
i
) <

s
i

i
(s
i
)u
i
(d
i
, s
i
).
Ento, s
i
no uma escolha racional para o agente i.
Autor: Leandro Chaves Rgo
3.3. RACIONALIZABILIDADE E DOMINNCIA 30
3.3.2 Dominncia Iterada
Uma das coisas mais difceis quando analisamos um jogo determinar as crenas dos agentes.
Muitos jogos podem ser simplicados assumindo racionalidade dos agentes e conhecimentos
sobre racionalidade dos outros agentes. Por exemplo, considere o Dilema do Prisioneiro. Co-
operar uma estratgia dominada. Um agente racional portanto nunca cooperar. Portanto,
isto resolve o jogo pois todos os agentes iro delatar. Note que um agente no precisa saber
nada sobre o outro agente, a no ser que ele racional. Este resultado intrigante, pois
ele o pior resultado em termos da soma das utilidades dos jogadores e ambos melhorariam
seu resultado se cooperassem. Este resultado mostra que s vezes benco restringir as
opes dos agentes. Por exemplo, no caso do sistema de defesa anti-msseis ambos os pases
sairiam ganhando se assinassem acordos que proibissem a construo de escudo anti-msseis
e a construo de novos msseis. Ento ambos pases s teriam uma opo de cooperar e
ambos sairiam ganhando.
Exemplo 3.3.5: Considere novamente o jogo do Experimento 7 abaixo.
A B C D
A 5,2 2,6 1,4 0,4
B 0,0 3,2 2,1 1,1
C 7,0 2,2 1,5 5,1
D 9,5 1,3 0,2 4,8
Neste jogo, para o jogador 2, a estratgia A estritamente dominada pela estratgia D,
assim, a primeira coluna da matriz pode ser eliminada.
B C D
A 2,6 1,4 0,4
B 3,2 2,1 1,1
C 2,2 1,5 5,1
D 1,3 0,2 4,8
Agora, nesta matriz reduzida, para o jogador 1, as estratgias A e D so estritamente
dominadas pelas estratgias B e C, respectivamente. Portanto, as linhas 1 e 4 podem ser
eliminadas.
B C D
B 3,2 2,1 1,1
C 2,2 1,5 5,1
Alm disso, a estratgia D do jogador 2 estritamente dominada pelas estratgia B.
Assim, a coluna 3 tambm pode ser eliminada. Obtemos ento uma matriz reduzida 2 2.
B C
B 3,2 2,1
C 2,2 1,5
Autor: Leandro Chaves Rgo
3.3. RACIONALIZABILIDADE E DOMINNCIA 31
Finalmente, a estratgia C do jogador 1 estritamente dominada pela estratgia B e, na
matriz 1 2 resultante, a estratgia C do jogador 2 estritamente dominada pela estratgia
B. Vemos ento que o resultado do jogo (3, 2), isto , o jogador 1 escolhe a estratgia
B e o jogador 2 escolhe a estratgia B. Neste caso, temos que a tcnica de eliminao
de dominncia estrita iterada fornece um nico perl de estratgia como soluo do jogo.
Contudo, na grande maioria dos jogos esta tcnica no determina uma soluo nica.
Vale a pena discutir o nvel de conhecimento que requeremos dos jogadores quando apli-
camos esta tcnica de eliminao de estratgias estritamente dominadas. Agente 1 tem que
saber que o agente 2 racional. Agente 2 tem que saber que o agente 1 sabe que o agente 2
racional. No suciente saber que o outro agente racional, tambm necessrio saber que
o outro agente sabe que o primeiro racional. necessrio conhecimento de ordens ainda
maiores. Eu posso saber que meu adversrio racional e que ele sabe que eu sou racional.
Mas pode ser que ele no saiba que eu sei que ele sabe. Quanto maior for a ordem do co-
nhecimento, mais o processo de eliminao de estratgias estritamente dominadas pode ser
repetido. Se racionalidade for conhecimento comum podemos repetir este processo de elimi-
nao de estratgias estritamente dominadas innitamente. Assumiremos que racionalidade
conhecimento comum na maior parte deste curso.
Seja C
i
o conjunto de estratgias puras do jogador i e D
i
um subconjunto no-vazio de
C
i
. Dena D =
iN
D
i
, um subconjunto do conjunto de pers de estratgias do jogo e
D
i
=
jN{i}
D
j
, ou seja, um subconjunto do conjunto dos pers de estratgias puras dos
adversrios de i. Vamos denir por U
i
(D) o subconjunto de D
i
de estratgias que no so
estritamente dominadas considerando que os demais jogadores escolhem estratgias em D
i
,
ou seja, para todo i N
U
i
(D) = {s
i
D
i
:
i
(D
i
) tal que

d
i
D
i

i
(d
i
)u
i
(d
i
, s
i
) > u
i
(s
i
, s
i
), s
i
D
i
}.
Denio 3.3.6: A denio formal do algoritmo de eliminao das estratgias estritamente
dominadas a seguinte:
Passo 1: Dena S
0
i
= C
i
, i N.
Passo k+1: Para k 1, dena S
k
i
= U
i
(S
k1
), i N. S
k
i
o conjunto de estratgias
que no so estritamente dominadas quando voc sabe que os outros agentes utilizam
estratgias em S
k1
i
.
Passo : Dena S

i
=

k=0
S
k
i
. Note que se o conjunto de estratgias S
i
for nito
para todo i, ento o algoritmo deve parar aps um nmero nito de iteraes pois os
conjuntos se tornam menores a cada iterao. No caso particular, de um jogo com
dois jogadores que tm n e m aes disponveis o processo iterativo deve parar aps
no mximo n + m2 passos.
Denio 3.3.7: Um jogo tem soluo determinada por eliminao de estratgias estrita-
mente dominadas se S

contm um nico perl de estratgias.


Autor: Leandro Chaves Rgo
3.4. RACIONALIZABILIDADE 32
Observao 3.3.8:
1. Apesar da maioria dos jogos no ter soluo determinada por eliminao de estrat-
gias estritamente dominadas, este processo nos leva a determinar que estratgias no
devero ser utilizadas caso a hiptese de conhecimento comum sobre racionalidade dos
jogadores seja satisfeita.
2. No especicamos a ordem na qual as estratgias devem ser eliminadas. Pode-se mos-
trar que a ordem de eliminao no importa. (Exerccio) Intuio: Assuma que voc
no eliminou todas as estratgias dominadas em algum passo da iterao. Voc a elimi-
nar depois? Claro que sim, uma estratgia dominada permanecer sendo dominada,
o mximo que pode ter acontecido que algumas outras estratgias dos outros agentes
foram eliminadas, o que diminui as restries na denio de estratgia dominada. O
mesmo no verdade para eliminao de estratgias fracamente dominadas.
L R
T 1,1 0,0
M 1,1 2,1
B 0,0 2,1
Poderamos eliminar primeiro T e depois L. Neste caso, temos que a soluo daria
utilidades (2,1) com certeza. Contudo, se eliminarmos primeiro B e depois R a soluo
daria resultado (1,1) com certeza. Portanto, eliminao de estratgias fracamente
dominadas nem sempre resulta em resultados consistentes, logo uma opo de soluo
menos atraente.
3. Com um conjunto de estratgias nitas o conjunto S

sempre no vazio por que


aps cada passo da iterao deve existir alguma estratgia dominante que restou.
4. Para o caso geral de um conjunto innito de estratgias, no obvio que o processo
iterativo resultar em um conjunto no-vazio. Existem exemplos de sequncias mo-
notnicas de conjuntos cuja interseco vazia: S
n
= (0, (
1
2
)
n
). A interseco S

de todos estes intervalos abertos vazia. Uma maneira de garantir que temos um
conjunto S

no-vazio assegurar que os conjuntos S


k
so fechados e limitados, e
portanto compactos, assumindo um espao de aes de dimenso nita. Geralmente,
este o caso se as funes utilidades forem contnuas nas estratgias dos agentes.
3.4 Racionalizabilidade
Na maioria das situaes estratgicas, no o caso que um jogador pode deduzir as estratgias
que os outros jogadores usam. Como todos os jogadores tentam maximizar sua utilidade
esperada e isto conhecimento comum, o melhor que um jogador pode esperar fazer
deduzir um conjunto de estratgias plausveis para os outros jogadores. Aqui, assumimos
Autor: Leandro Chaves Rgo
3.4. RACIONALIZABILIDADE 33
que uma estratgia plausvel uma melhor resposta para alguma crena plausvel que um
jogador pode ter a respeito do perl de estratgias sendo jogado. Esta a intuio que o
conceito de soluo de racionalizabilidade tenta capturar. Podemos pensar em neste conceito
como sendo o que caracteriza que os jogadores agem otimamente dado suas crenas.
Formalmente, seja C
i
o conjunto de estratgias puras para o jogador i; C =
iN
C
i
,
portanto, o conjunto de pers de estratgias puras. Suponha que C nito e que cada jogador
i racional e conhecimento comum que ele escolhe uma estratgia de um subconjunto D
i
de C
i
. Seja D
i
=
j=i
D
j
e
B(D
i
) = {argmax
s
i
C
i

d
i
D
i
(d
i
)u
i
(s
i
, d
i
) : para algum (D
i
)};
isto , B(D
i
) consiste das estratgias em C
i
que so melhores respostas para alguma crena
que o jogador i pudesse ter sobre as estratgias que os outros jogadores esto usando. Observe
que se D
i
D

i
C
i
, ento B(D
i
) B(D

i
) B(C
i
), pois a medida que o nmero
de estratgias para os adversrios de i aumenta, temos que existem mais crenas plausveis
para i, e portanto, o conjunto de estratgias que so melhores respostas deve aumentar ou
permanecer o mesmo.
O conjunto S =
iN
S
i
de estratgias racionalizveis correlacionadas caracterizado
pelas duas seguintes propriedades: (a) para todo i N, S
i
B(S
i
) e (b) S o maior
conjunto que satisfaz condio (a), no sentido que, para todo conjunto de pers de estratgia
D que satisfaz (a), temos que D S. Uma estratgia s
i
S
i
chamada de uma estratgia
racionalizvel correlacionada para o jogador i. Pode-se construir S atravs do seguinte
processo de iterao.
Passo 1: Dena C
0
i
= C
i
, i N.
Passo k+1: Para k 1, dena C
k
i
= B(C
k1
i
), i N. C
k
i
o conjunto de estratgias
que so melhores respostas para alguma crena do jogador i quando i sabe que os
outros agentes utilizam estratgias em C
k1
i
e podem correlacionar as estratgias.
Passo : Dena S

i
=

k=1
C
k
i
.
Como o conjunto de estratgias C
i
nito para todo i, ento o algoritmo deve parar aps um
nmero nito de iteraes pois os conjuntos C
k
i
s se tornam menores a cada iterao. Seja
j o primeiro passo no qual no h mais nenhuma eliminao de estratgias no algoritmo.
Portanto, S

i
= C
j
i
. Vamos mostrar que o conjunto S

=
iN
S
i
realmente o conjunto
de estratgias racionalizveis correlacionadas do jogo. Como B(C
k
i
)
k0
uma sequncia no
crescente de conjuntos, temos que
S

i
= C
j
i
=

k=1
C
k
i
=

k=1
B(C
k1
i
) = B(C
j
i
) = B(S

i
).
Portanto, a condio (a) da denio satisfeita. Vamos vericar a condio (b). Suponha,
por contradio, que exista outro D C tal que D
i
B(D
i
) para todo i N e D S

.
Como a sequncia C
k
no crescente, dena como k

o primeiro passo no qual para algum


jogador j N uma estratgia s
j
D
j
B(D
j
) no pertena C
k

1
j
. Por denio do
Autor: Leandro Chaves Rgo
3.4. RACIONALIZABILIDADE 34
algoritmo, temos que s
j
/ B(C
k

2
j
). Como D
j
C
k

2
j
, temos que B(D
j
) B(C
k

2
j
),
uma contradio. Portanto, S

o conjunto de estratgias racionalizveis correlacionadas


do jogo e S

i
= B(S

i
) para todo jogador i.
Frequentemente assume-se que os jogadores escolhem suas estratgias de maneira inde-
pendente uns dos outros e que isto conhecimento comum entre os jogadores. Se ns assu-
mimos essa hiptese, ns temos um conceito de soluo um pouco mais forte (pelo menos, no
caso em que |N| 3), que chama-se racionalizabilidade no-correlacionada. Formalmente,
suponha que cada jogador racional e conhecimento comum que ele escolhe uma estratgia
do subconjunto D
i
de C
i
. Seja D
i
=
j=i
D
j
e
O(D
i
) = {argmax
s
i
C
i

d
i

jN{i}

j
(d
j
)u
i
(s
i
, d
i
) :
para
j
(D
j
)};
isto , O(D
i
) consiste das estratgias em C
i
que so melhores respostas para alguma crena
que o jogador i pudesse ter sobre as estratgias que os outros jogadores esto usando, assu-
mindo que conhecimento comum que jogadores escolhem suas aes independentemente.
Observe que se D
i
D

i
C
i
, ento O(D
i
) O(D

i
) O(C
i
), pois a medida que
o nmero de estratgias para os adversrios de i aumenta, temos que existem mais crenas
plausveis para i, e portanto, o conjunto de estratgias que so melhores respostas deve au-
mentar ou permanecer o mesmo. Alm disso, note que temos sempre que O(D
i
) B(D
i
),
pois todo crena que o jogador i pode ter no caso de independncia ele tambm poderia ter
no caso em que ele admite a possibilidade dos adversrios correlacionarem as estratgias.
O conjunto S
u
=
iN
S
u
i
de estratgias racionalizveis no-correlacionadas caracte-
rizado pelas duas seguintes propriedades: (a) para todo i N, S
u
i
O(S
u
i
) e (b) S
u
o
maior conjunto que satisfaz condio (a), no sentido que, para qualquer conjunto de pers
de estratgias D que satisfaz (a), temos que D S
u
. Uma estratgia s
u
i
S
u
i
chamada
de uma estratgia racionalizvel no-correlacionada para o jogador i. Pode-se construir S
u
atravs de um processo de iterao similar ao utilizado para construir S, substituindo B()
por O() no algoritmo. Como O(D
i
) B(D
i
), fcil ver que S
u
S.
O seguinte exemplo ilustra as diferenas entre os trs conceitos: eliminao de estratgias
estritamente dominadas, estratgias racionalizveis correlacionadas e no-correlacionadas.
Exemplo 3.4.1: Considere o seguinte jogo com trs jogadores. O jogador a possui trs
estratgias puras a
1
, a
2
, a
3
, enquanto os jogadores b e c possuem duas estratgias puras cada
um b
1
, b
2
e c
1
, c
2
, respectivamente. Vamos agora denir quais estratgias pertencem aos
conjuntos U
i
(C), B(C
i
) e O(C
i
). Temos que para j {1, 2, 3}, a
j
U
a
(C) se, e somente
se, no existe p
a
(C
a
) tal que
u
a
(a
j
, s
a
) <
3

i=1
p
a
(a
i
)u
a
(a
i
, s
a
), para todo s
a
C
b
C
c
,
ou seja, a
j
U
a
(C) se, e somente se, no existir nenhuma estratgia mista p
a
que tenha utili-
dade esperada estritamente melhor que a
j
para o jogador a dado qualquer par de estratgias
puras utilizado pelos jogadores b e c.
Autor: Leandro Chaves Rgo
3.4. RACIONALIZABILIDADE 35
Por outro lado, temos que para j {1, 2, 3}, a
j
B(C
a
) = B(C
b
C
c
) se, e somente se,
existir p
a
(C
a
) = (C
b
C
c
) tal que
2

i=1
2

k=1
p
a
(b
i
, c
k
)u
a
(a
j
, b
i
, c
k
)
2

i=1
2

k=1
p
a
(b
i
, c
k
)u
a
(a
l
, b
i
, c
k
), para todo l {1, 2, 3},
ou seja, a
j
B(C
a
) se, e somente se, a
j
for uma melhor resposta para alguma crena que
o jogador a tenha a respeito de como os jogadores b e c podem jogar o jogo admitindo a
possibilidade de que b e c correlacionem suas estratgias de acordo com a distribuio p
a
.
Finalmente, temos que para j {1, 2, 3}, a
j
O(C
a
) = O(C
b
C
c
) se, e somente se,
existirem p
b
(C
b
) e p
c
(C
c
) tais que
2

i=1
2

k=1
p
b
(b
i
)p
c
(c
k
)u
a
(a
j
, b
i
, c
k
)
2

i=1
2

k=1
p
b
(b
i
)p
c
(c
k
)u
a
(a
l
, b
i
, c
k
), para todo l {1, 2, 3},
ou seja, a
j
O(C
a
) se, e somente se, a
j
for uma melhor resposta para alguma crena que o
jogador a tenha a respeito de como os jogadores b e c podem jogar o jogo admitindo que os
jogadores b e c escolham suas estratgias independentemente de acordo com as distribuies
p
b
e p
c
, respectivamente.
Mostraremos a seguir que o conjunto de estratgias racionalizveis correlacionadas
exatamente igual ao conjunto de estratgias que sobrevivem ao processo de eliminao iterada
de estratgias estritamente dominadas. Considere a seguinte denio:
Denio 3.4.2: Considere um jogo em forma normal com conjunto de pers de estratgia
dado por C =
iN
C
i
. Uma estratgia s
i
do jogador i em um jogo em forma normal nunca
uma melhor resposta se s
i
/ B(C
i
).
Lema 3.4.3: Uma estratgia para um jogador em um jogo de forma normal nito (isto , no
qual N e C so nitos) nunca uma melhor resposta se, e somente se, ela for estritamente
dominada, ou seja, B(C
i
) = U
i
(C) para todo jogador i N.
Prova: Omitida. Ver Lema 60.1 em Osborne e Rubinstein.
Teorema 3.4.4: Para qualquer jogo em forma normal nito (N, (C
i
)
iN
, (u
i
)
iN
), temos que
S

= S.
Prova: Consequncia imediata do Lema 3.4.3 e dos algoritmos para encontrar S

= S.
Exemplo 3.4.5: Considere uma situao onde duas pessoas tem que dividir R$6,00 entre
si. Eles usam o seguinte procedimento. Cada pessoa escolhe uma quantidade inteira e no-
negativa de reais no mximo igual a R$6,00. Se a soma for no mximo R$6,00, ento cada
pessoa receber a quantidade que escolheu. Se a soma exceder R$6,00 e eles tiverem escolhido
o mesmo nmero ento eles dividiro os R$6,00 igualmente. Se a soma exceder R$6,00 e
Autor: Leandro Chaves Rgo
3.5. EQUILBRIO DE NASH 36
eles tiverem escolhido valores diferentes, o que escolheu o menor valor recebe a quantidade
que escolheu enquanto o outro recebe o restante. Quais as estratgias racionalizveis dos
jogadores? Responda a mesma pergunta se mudarmos a regra do jogo no ltimo caso e
tivermos que neste caso o jogador que escolher o maior nmero (ao invs do menor) recebe
a quantidade que escolheu enquanto o outro recebe a diferena.
Baseados neste resultado, poderamos tentar utilizar um outro conceito de soluo usando
a noo de dominncia fraca. Poderamos olhar para o maior conjunto D =
iN
D
i
tal
que para todo jogador i, D
i
o conjunto de todas as estratgias que no so fracamente
dominadas quando sabe-se que os outros jogadores escolhem estratgias em D
i
. Porm
existem jogos onde este conjunto D vazio conforme o exemplo a seguir.
Exemplo 3.4.6:
x
2
y
2
x
1
1,1 1,0
y
1
1,0 0,1
Se y
1
/ D
1
, ento segue que y
2
/ D
2
. Mas neste caso, temos que y
1
no pode ser excludo.
Se y
1
D
1
, ento y
2
D
2
. Mas neste caso, temos que y
1
pode ser excludo. Portanto, este
no um bom conceito de soluo.
3.5 Equilbrio de Nash
Eliminao de estratgias estritamente dominadas um conceito de soluo atrativo por-
que somente assume que os jogadores so racionais e que conhecimento comum que todo
jogador racional (mesmo assim isto pode ser uma suposio muito forte j que estamos
assumindo que ser racional utilizar a regra de deciso MUE). essencialmente um con-
ceito construtivo - a idia restringir suposies sobre as estratgias escolhidas por outros
jogadores eliminando estratgias uma a uma. Para uma grande classe de jogos, este conceito
reduz signicativamente o conjunto de estratgias. Contudo, apenas uma pequena classe de
problemas pode ser resolvida desta maneira.
Vamos introduzir agora o conceito de soluo mais famoso em Teoria dos Jogos: equilbrio
de Nash. Mostraremos adiante que todo jogo nito tem pelo menos um equilbrio de Nash e
que o conjunto de equilbrios de Nash um subconjunto das estratgias racionalizveis no-
correlacionadas, e, portanto, um subconjunto das estratgias que sobrevivem ao processo
iterativo de eliminao de estratgias dominadas. Neste sentido, equilbrio de Nash faz
predies mais fortes que os conceitos anteriores.
Denio 3.5.1: Um perl de estratgias um equilbrio de Nash de (N, {C
i
}
iN
, {u
i
}
iN
)
se, e somente se, u
i
() u
i
(
i
,
i
) para todo jogador i N e toda estratgia mista

i
(C
i
).
Denio 3.5.2: Um equilbrio de Nash dito ser puro se para todo jogador i,
i
d
probabilidade 1 a uma nica estratgia em C
i
.
Autor: Leandro Chaves Rgo
3.5. EQUILBRIO DE NASH 37
Denio 3.5.3: Um perl de estratgias um equilbrio de Nash estrito de (N, {C
i
}
iN
, {u
i
}
iN
)
se, e somente se, u
i
() > u
i
(
i
,
i
) para todo jogador i N e toda estratgia mista

i
(C
i
).
Em palavras, um perl de estratgia um equilbrio de Nash se mesmo que um jogador
saiba as estratgias que esto sendo usadas pelos demais, ele no tem incentivo a mudar sua
estratgia porque sua estratgia uma melhor resposta as estratgias dos demais jogadores.
O equilbrio puro se os jogadores escolhem estratgias determinsticas e estrito se qualquer
desvio unilateral do equilbrio causa um prejuzo ao jogador que desviar do equilbrio.
Em um jogo em forma normal nito ou enumervel, se
i
uma estratgia randomizada
para jogador i, uma estratgia pura s
i
C
i
pertence ao suporte de
i
se
i
(s
i
) > 0. O
prximo teorema mostra que se um equilbrio de Nash, ento para todo jogador i, todas
as estratgias puras no suporte de
i
tem a mesma utilidade esperada para o jogador i dado
que os demais jogadores jogam
i
.
Teorema 3.5.4: Se um equilbrio de Nash de um jogo em forma normal nito ou
enumervel, ento para todo jogador i, para quaisquer pares de estratgias puras s
i
, t
i
no
suporte de
i
, temos u
i
(s
i
,
i
) = u
i
(t
i
,
i
). Portanto, u
i
() = u
i
(s
i
,
i
) para qualquer
estratgia pura s
i
no suporte de
i
.
Prova: Suponha por contradio que exista s
i
, t
i
no suporte de
i
tal que u
i
(s
i
,
i
) >
u
i
(t
i
,
i
). Considere a seguinte estratgia randomizada
i
tal que
i
(c
i
) =
i
(c
i
) para
todo c
i
C
i
{s
i
, t
i
}, e (s
i
) =
i
(s
i
) +
i
(t
i
). Ento, temos que u
i
(
i
,
i
) u
i
() =

i
(t
i
)(u
i
(s
i
,
i
) u
i
(t
i
,
i
)) > 0, uma contradio pois um equilbrio de Nash.
3.5.1 Jogos com um nico Equilbrio de Nash
Exemplo 3.5.5: Dilema do Prisioneiro.
D C
D -3,-3 0,-5
C -5,0 -1,-1
Este jogo tem apenas um nico equilbrio de Nash onde os jogadores escolhem D com
probabilidade 1. fcil checar que pelo menos um jogador tem incentivo a mudar de qualquer
outro perl de estratgias. Por exemplo, ambos os jogadores escolherem C com probabilidade
1 no pode ser um equilbrio de Nash, pois ambos jogadores ganhariam se mudassem para
estratgia que escolhe D com probabilidade 1.
Antes de analisarmos o prximo exemplo consideremos a seguinte Proposio.
Proposio 3.5.6: Se um equilbrio de Nash de um jogo em forma normal nito ou
enumervel, ento para todo jogador i, se s
i
pertence ao suporte de
i
, s
i
sobrevive ao processo
iterativo de eliminao de estratgias estritamente dominadas.
Autor: Leandro Chaves Rgo
3.5. EQUILBRIO DE NASH 38
Prova: Suponha, por contradio que existam s
i
pertencentes ao suporte de tais que s
i
no sobrevive ao processo iterativo de eliminao de estratgias estritamente dominadas.
Seja k o menor inteiro no qual existe um s
i
no suporte de tal que s
i
S
k
i
, mas s
i
/ S
k+1
i
,
ou seja, existe
i
com suporte em S
k
i
tal que u
i
(s
i
, d
i
) < u
i
(
i
, d
i
) para todo d
i
S
k
i
.
Como todas estratgias no suporte de
i
esto em S
k
i
, temos que
u
i
(s
i
,
i
) =

d
i
S
k
i

i
(d
i
)u
i
(s
i
, d
i
) <

d
i
S
k
i

i
(d
i
)u
i
(
i
, d
i
) = u
i
(
i
,
i
).
Ento, pelo Teorema 3.5.4, u
i
() < u
i
(
i
,
i
), uma contradio pois um equilbrio de
Nash.
Exemplo 3.5.7:
L M R
U 2,2 1,1 4,0
D 1,2 4,1 3,5
Neste jogo o nico equilbrio de Nash ([U],[L]). fcil ver que ([U],[L]) um equilbrio
de Nash, pois ambos jogadores perderiam se mudassem de estratgia. Para vericar que este
equilbrio nico note que este perl o nico que sobrevive ao processo de eliminao de
estratgias estritamente dominadas. Logo, o resultado segue da Proposio 3.5.6.
Exemplo 3.5.8: Combinando Centavos.
H T
H 1,-1 -1,1
T -1,1 1,-1
Neste jogo o nico equilbrio de Nash tem ambos os jogadores escolhendo cada uma de
suas estratgias puras com igual probabilidade. Neste equilbrio, a utilidade esperada de
ambos os agentes igual a zero.
Exemplo 3.5.9: Trabalho em Dupla. Considere uma situao em que duas pessoas tem
que realizar um trabalho e cada uma delas pode colocar um esforo x
i
[0, 1] para o qual
ela ter um custo de c(x
i
). O resultado do projeto vale f(x
1
, x
2
) e a dupla divide este valor
igualmente independente do esforo que cada pessoa teve. Encontre o equilbrio de Nash nas
seguinte situaes:
(a) f(x
1
, x
2
) = 4x
1
x
2
e c(x
i
) = x
2
i
, para i = 1, 2.
(b) f(x
1
, x
2
) = 3x
1
x
2
e c(x
i
) = x
i
, para i = 1, 2.
Em cada um dos casos, existe um outro par de esforos (x
1
, x
2
) que d a ambos jogadores
um melhor resultado do que o resultado obtido no equilbrio de Nash?
Autor: Leandro Chaves Rgo
3.5. EQUILBRIO DE NASH 39
3.5.2 Jogos com Mltiplos Equilbrios de Nash
Exemplo 3.5.10: Considere o seguinte jogo de coordenao.
E C
E 1,1 0,0
C 0,0 1,1
Este jogo tem trs equilbrios de Nash - ([E],[E]), ([C],[C]), e (1/2[E]+1/2[C],1/2[E]+1/2[C]).
Exemplo 3.5.11: Medindo Foras.
F S
F -20,-20 10,-5
S -5,10 0,0
Este jogo tem trs equilbrios de Nash - ([F],[S]), ([S],[F]), e (2/5[F]+3/5[S],2/5[F]+3/5[S]).
Exemplo 3.5.12: Jogo de Votos. Trs jogadores escolhem simultaneamente uma de trs
alternativas A, B ou C. Se a maioria escolher uma alternativa, esta ser a vencedora. Se os
votos se dividirem em 1-1-1, assumimos que a alternativa A ser escolhida. Suponha que
as preferncias sejam representadas por: u
1
(A) = 3, u
1
(B) = 2, u
1
(C) = 1, u
2
(A) = 1,
u
2
(B) = 3, u
2
(C) = 2, u
3
(A) = 2, u
3
(B) = 1, e u
3
(C) = 3.
Este jogo tm vrios equilbrios de Nash, entre os quais podemos citar: ([A],[A],[A]),
([B],[B],[B]), ([C],[C],[C]). (Exerccio: Encontre todos os equilbrios de Nash em estratgia
pura deste jogo.)
3.5.3 Pontos Focais
O conceito de equilbrio de Nash no nos permite determinar que equilbrio ser jogado em
uma particular realizao do jogo se este possui mltiplos equilbrios. No Exemplo 3.5.10
no existe nenhuma maneira de determinar qual dos equilbrios ([E],[E]) ou ([C],[C]) me-
lhor, pois ambos resultam em utilidade 1 para os jogadores. Por outro lado, o equilbrio
(1/2[E]+1/2[C],1/2[E]+1/2[C]) resultado em uma utilidade esperada de 1/2 para os jogado-
res.
Para alguns jogos possvel que exista algum equilbrio de Nash que se destaque em
relao aos demais, estes equilbrios so chamados de pontos focais. Por exemplo, o fato que
brasileiros dirigem do lado direito da rua poderia ser utilizado para determinar o ponto focal
do prximo exemplo:
Exemplo 3.5.13: Joo e Jos dirigem em dois carros numa pista de duas faixas em direes
opostas. Eles podem dirigir tanto do lado esquerdo como do direito, mas se eles no coor-
denarem suas aes eles podem causar um acidente de trnsito. Este jogo pode ser descrito
pela seguinte matriz:
Autor: Leandro Chaves Rgo
3.5. EQUILBRIO DE NASH 40
D E
D 1,1 0,0
E 0,0 1,1
Esperamos que ambos escolham ([D],[D]) que a norma socialmente aceita neste jogo.
Exemplo 3.5.14: Batalha dos Sexos.
Considere novamente o jogo da batalha dos sexos.
S P
S 1,2 0,0
P 0,0 2,1
([S],[S]) e ([P],[P]) so equilbrios de Nash deste jogo. Este jogo interessante, pois os
jogadores no so indiferentes entre qual equilbrio implementar. Jogador 1 prefere ([P],[P])
e o jogador 2 prefere ([S],[S]).
Experimento 8: Suponha que voc o jogador 1 na batalha dos sexos. Qual ser a sua
escolha?
Experimento 9: Suponha novamente que voc o jogador 1 na batalha dos sexos. Jogador
2 escolhe uma ao primeiro. Voc no pode observar a escolha do jogador 2 antes de escolher
sua prpria ao. Qual ser a sua escolha?
Experimento 10: Suponha novamente que voc o jogador 1 na batalha dos sexos. Antes
do jogo comear, o jogador 2 tem uma oportunidade de fazer um anuncio. Seu anuncio
Jogarei S. Voc no pode fazer um anncio antes do jogo. Qual ser a sua ao?
Este tipo de comunicao conhecido como conversa ada (cheap talk) pois este anuncio
no muda em nada a anlise. Note que, simplesmente expandindo o espao de estratgias
para o jogador 2. Ao invs das estratgias S e P, jogador 2 agora tem 4 estratgias: Ss,
Sp, Pp, Ps, onde estratgia Sp signica que jogador 2 escolhe S e anuncia que iria jogar p.
Claramente, as estratgias Ss e Sp tm a mesma utilidade esperada quando jogada contra
qualquer estratgia do jogador 1. Portanto, o jogo continua tendo o mesmo conjunto de
equilbrios de Nash que antes. Contudo, o anncio pode criar um ponto focal no jogo.
3.5.4 Risco Dominante
Considere o seguinte jogo.
A B
A 9,9 -15,8
B 8,-15 7,7
Este jogo tem dois equilbrios de Nash em estratgias puras: ([A],[A]) and ([B],[B]).
Ao contrrio dos jogos anteriores, o equilbrio ([A],[A]) melhor para ambos os jogadores.
Podemos ento ser tentados a pensar que este equilbrio mais jogado na prtica. Contudo,
muitas pessoas tipicamente escolhem estratgia B na maioria dos experimentos. Escolher A
parece ser muito arriscado. Assuma que voc no sabe muito sobre o outro jogador e acha
que igualmente provvel que ele escolher uma de sua estratgias puras que fazem parte
de um equilbrio de Nash. Ento, escolher A lhe d uma utilidade esperada de -3 enquanto
escolher B lhe d 7,5. Portanto, A risco dominada por B.
Autor: Leandro Chaves Rgo
3.5. EQUILBRIO DE NASH 41
3.5.5 Dominncia Conjunta
Um outro critrio de seleo de equilbrios escolher os equilbrios nos quais no existe outro
equilbrio onde todos os jogadores recebem um pagamento esperado pelo menos igual a este
equilbrio e pelo menos um dos jogadores esteja estritamente melhor. Segundo este critrio
os jogadores no jogo da seo anterior deveriam escolher o equilbrio ([A],[A]). Para um outro
exemplo considere o seguinte jogo:
A B
A 1,3 2,3
B 1,1 2,1
Neste jogo, os 4 pers de estratgias puras so equilbrios de Nash. Segundo o critrio
de dominncia conjunta, o equilbrio selecionado seria o par ([A],[B]).
3.5.6 Prova da Existncia
Nesta seo veremos que todo jogo em forma normal nito possui um equilbrio de Nash
em estratgias randomizadas. A demonstrao que apresentaremos faz uso do Teorema do
ponto xo de Brouwer.
Teorema 3.5.15: (Brouwer.) Se M um subconjunto compacto e convexo de um espao
euclidiano de dimenso nita e F : M M uma funo contnua, ento F possui um
ponto xo em M, isto , existe x

M tal que F(x

) = x

.
Provaremos a existncia do equilbrio de Nash em jogos nitos atravs de uma srie de
lemas. Para cada jogador i N e cada estratgia s C
i
seja z
s
i
:
iN
(C
i
) IR tal que
z
s
i
() = u
i
([s],
i
) u
i
(),
isto , z
s
i
mede o ganho ou perda do jogador i quando ele muda de estratgia
i
para [s].
Lema 3.5.16:

um equilbrio de Nash se, e somente se, z


s
i
(

) 0, i N e s C
i
.
Prova: Assuma que

um equilbrio de Nash, ento u


i
(

) u
i
([s],

i
) para todo i N
e s C
i
. Consequentemente, z
s
i
(

) 0.
Por outro lado, se z
s
i
(

) 0, i N e s C
i
, ento u
i
([s],

i
) u
i
(

), i N
e s C
i
. Precisamos mostrar que para todo
i
, u
i
(
i
,

i
) u
i
(

). Pela linearidade da
esperana, temos
u
i
(
i
,

i
) =

sC
i

i
(s)u
i
([s],

i
)

sC
i

i
(s)u
i
(

) = u
i
(

sC
i

i
(s) = u
i
(

)
Autor: Leandro Chaves Rgo
3.5. EQUILBRIO DE NASH 42
Corolrio 3.5.17: Seja g
s
i
() = max(0, z
s
i
), ento

um equilbrio de Nash se, e somente,


g
s
i
(

) = 0, i N e s C
i
.
Considere a seguinte aplicao F :
iN
(C
i
)
iN
(C
i
) tal que para todo i N e
s C
i
:
F
i
()(s) =

i
(s) + g
s
i
()
1 +

tC
i
g
t
i
()
.
Lema 3.5.18:

um equilbrio de Nash se, e somente se, F(

) =

, isto , se, e somente


se,

um ponto xo da aplicao F.
Prova: Observe que, de fato, F(
iN
(C
i
))
iN
(C
i
), pois claramente F
i
()(s) 0 e

sC
i
F
i
()(s) =

sC
i

i
(s) + g
s
i
()
1 +

tC
i
g
t
i
()
1
1 +

tC
i
g
t
i
()

sC
i
(
i
(s) + g
s
i
())
1
1 +

tC
i
g
t
i
()
(1 +

sC
i
g
s
i
()) = 1,
portanto, para todo i N e temos que F
i
() (C
i
).
Assuma que

um equilbrio de Nash, ento g


s
i
(

) = 0 para cada i N e s C
i
.
Desta maneira, F
i
(

)(s) =

i
(s) para cada i N e s C
i
, ou seja, F(

) =

.
Assuma agora que

um ponto xo da aplicao F, ento temos que para todo i N


e s C
i
:

i
(s) =

i
(s) + g
s
i
(

)
1 +

tC
i
g
t
i
(

)
.
Segue-se ento que para todo i N e s C
i
:

i
(s)

tC
i
g
t
i
(

) = g
s
i
(

).
Vamos agora provar que

tC
i
g
t
i
(

) = 0, o que por sua vez implica que g


t
i
(

) = 0 para
todo i N e t C
i
. Suponha, por absurdo, que

tC
i
g
t
i
(

) > 0, ento temos que


g
s
i
(

) > 0 se, e somente se,

i
(s) > 0.
Intuitivamente, isto signica que o jogador i se benecia ao trocar da estratgia

i
para
[s], quando os demais jogam conforme

i
se, e somente se, a estratgia mista

i
escolhe a
estratgia pura s com probabilidade positiva, o que gera um absurdo. Formalmente, observe
que para todo i N e s C
i
, se g
s
i
(

) > 0 ento u
i
([s],

i
) > u
i
(

). Logo,
u
i
(

) = u
i
(

sC
i

i
(s)[s],

i
)
=

sC
i

i
(s)u
i
([s],

i
) =

sC
i
,

i
(s)>0

i
(s)u
i
([s],

i
)
>

sC
i
,

i
(s)>0

i
(s)u
i
(

) = u
i
(

),
Autor: Leandro Chaves Rgo
3.5. EQUILBRIO DE NASH 43
um absurdo. Isto demonstra que g
t
i
(

) = 0 para todo i N e t C
i
e, assim,

um
equilbrio de Nash em estratgias mistas.
Teorema 3.5.19: Todo jogo em forma normal nito possui um equilbrio de Nash.
Prova: A aplicao F :
iN
(C
i
)
iN
(C
i
) denida anteriormente contnua e

iN
(C
i
) um conjunto compacto e convexo de um espao euclidiano de dimenso nita.
Pelo teorema do ponto xo de Brouwer, F possui um ponto xo

. Pelo teorema anterior,

um equilbrio de Nash.
O Teorema 3.5.19 sugere uma maneira de se calcular os equilbrios de Nash de um jogo.
Eles so solues do seguinte problema de otimizao no-linear:
min

iN
(C
i
)

iN

sC
i
g
s
i
()
Como g
s
i
() 0 para todo i N, s C
i
e
iN
(C
i
), temos que o somatrio igual
zero se, e somente se, cada parcela for igual a zero, o que como visto, implica que os pers
que solucionam o problema de otimizao acima so realmente os equilbrios de Nash do
jogo. Na seo a seguir sugerimos um outro algoritmo para encontrar equilbrios de Nash de
jogos em forma normal nitos.
3.5.7 Clculo de Equilbrio de Nash
Nesta seo, consideraremos o problema de calcular os equilbrios de Nash de um jogo em
forma normal nito = (N, (C
i
)
iN
, (u
i
)
iN
). Embora existam innitas estratgias rando-
mizadas para este jogo, existe apenas um nmero nito de subconjuntos de C que pode
constituir o suporte das estratgias de um equilbrio de Nash. Podemos ento encontrar
todos os equilbrios de Nash de considerando sequencialmente todos os possveis suportes.
Para cada jogador i seja D
i
C
i
. D
i
representa nossa atual tentativa de estratgias que
fazem parte do suporte de algum equilbrio de Nash. Se existe algum equilbrio de Nash
com suporte em
iN
D
i
, o Teorema 3.5.4 garante que cada jogador i deve ser indiferente
entre as estratgias em D
i
. Portanto as quatro condies seguintes devem ser satisfeitas:

c
i
C
i
(

jN{i}

j
(c
j
))u
i
(c
i
, d
i
) = w
i
, i N, d
i
D
i
, (3.1)

i
(e
i
) = 0, i N, e
i
C
i
D
i
, (3.2)

c
i
D
i

i
(c
i
) = 1, i N, (3.3)

i
(d
i
) > 0, i N, d
i
D
i
. (3.4)
Condio (3.1) assegura que o jogador i tem a mesma utilidade esperada w
i
de utilizar
qualquer uma das estratgias puras no suporte de
i
. Condies (3.2), (3.3), e (3.4) asse-
guram que
i
tem suporte D
i
. Note que as trs primeiras condies formam um sistema de
Autor: Leandro Chaves Rgo
3.5. EQUILBRIO DE NASH 44

iN
(||C
i
|| + 1) equaes e mesmo nmero de incgnitas ({w
i
,
i
(c
i
)}, para todo c
i
C
i
e
i N). Portanto, teoricamente pode-se resolver este sistema. No caso de dois jogadores,
teremos um sistema linear de equaes. No caso de mais de dois jogadores temos um sistema
no linear. Assumindo que existe soluo para este sistema e que podemos encontrar todas
as solues deste sistema teremos que vericar que a Condio (3.4) satisfeita. Alm disso,
ainda temos que assegurar que nenhuma outra estratgia e
i
C
i
D
i
melhor para o jogador
i que
i
, ou seja, temos que garantir que:
w
i

c
i
C
i
(

jN{i}

j
(c
j
))u
i
(c
i
, e
i
), i N, e
i
C
i
D
i
. (3.5)
Se conseguirmos encontrar uma soluo (, w) para o sistema (3.1),(3.2) e (3.3) que
satisfaz tambm (3.4) e (3.5), temos que um equilbrio de Nash de e que w
i
a utilidade
esperada para o jogador i neste equilbrio. Por outro lado, se no existe nenhuma soluo
que satisfaz todas as restries de (3.1) a (3.5) temos que no existe equilbrio com suporte
em
iN
D
i
. Para encontrar um equilbrio temos que tentar outro suporte. O Teorema
da existncia do equilbrio de Nash garante que existe pelo menos um suporte
iN
D
i
que
satisfaz todas as restries de (3.1) a (3.5).
Exemplo 3.5.20: Considere o seguinte jogo.
x
2
y
2
z
2
x
1
0,0 5,4 4,5
y
1
4,5 0,0 5,4
z
1
5,4 4,5 0,0
Primeiro note que no existe nenhum equilbrio de Nash em estratgias puras neste
jogo. Vamos vericar se existe algum equilbrio onde a estratgia do jogador 1 tem suporte
D
1
= {x
1
, y
1
}. Note que neste caso a estratgia y
2
do jogador 2 estritamente dominada
pela estratgia z
2
e portanto no pode fazer parte do suporte do equilbrio, se ele existir.
Mas se y
2
/ D
2
, temos que x
1
estritamente dominada por y
1
. Logo, x
1
no pode estar
no suporte do equilbrio e, portanto no existe equilbrio com suporte D
1
= {x
1
, y
1
}. Os
casos em que D
1
= {x
1
, z
1
} e D
1
= {y
1
, z
1
} tambm podem ser resolvidos de forma similar
para chegar-se a concluso que eles no so suporte de nenhum equilbrio. Pela simetria
do jogo, temos que tambm no existe equilbrio quando D
2
= {x
2
, y
2
}, D
2
= {x
2
, z
2
}, ou
D
2
= {y
2
, z
2
}. Portanto, s nos resta o caso em que D
1
= {x
1
, y
1
, z
1
} e D
2
= {x
2
, y
2
, z
2
}.
Vamos assumir que
1
= (p
1
, p
2
, 1 p
1
p
2
) e que
2
= (q
1
, q
2
, 1 q
1
q
2
). Calculando, a
utilidade esperada do jogador 1 para cada uma de suas trs estratgias puras temos:
u
1
(x
1
,
2
) = 0q
1
+ 5q
2
+ 4(1 q
1
q
2
) = 4 4q
1
+ q
2
u
1
(y
1
,
2
) = 4q
1
+ 0q
2
+ 5(1 q
1
q
2
) = 5 q
1
5q
2
u
1
(z
1
,
2
) = 5q
1
+ 4q
2
+ 0(1 q
1
q
2
) = 5q
1
+ 4q
2
Igualando estas trs quantidades, temos a soluo q
1
= q
2
= 1/3. Fazendo calculo similar
para o jogador 2, pela simetria do problema obtemos p
1
= p
2
= 1/3.
Autor: Leandro Chaves Rgo
3.5. EQUILBRIO DE NASH 45
3.5.8 Interpretaes de Equilbrio de Nash
O processo de eliminao de estratgias estritamente dominadas um algoritmo construtivo
e no assume que os jogadores sabem das estratgias dos outros jogadores. Em contraste, em
um equilbrio de Nash jogadores tm crenas precisas sobre as estratgias dos outros. Preci-
samos saber de onde essas crenas vm para podermos interpretar esta noo de equilbrio.
Existem vrias interpretaes:
1. Estratgias so prescritas. Algum rbitro no envolvido no jogo prescreve uma maneira
de como o jogo deve ser jogado. Esta prescrio estvel no sentido de que nenhum
jogador tem incentivo a desviar dela unilateralmente.
2. Comunicao prvia. Existe uma comunicao prvia na qual jogadores podem se
comunicar e concordar em como jogar o jogo. Novamente este acordo estvel.
3. Introspeco Racional. Um equilbrio de Nash parece ser uma maneira plausvel de
jogar o jogo, pois minhas crenas sobre os outros jogadores so consistentes com o fato
que eles so racionais. Esta uma boa explicao para jogos que contm um nico
equilbrio de Nash. Contudo, menos convincente para jogos com mltiplos equilbrios
de Nash.
4. Ponto Focal. Normas sociais ou outras caractersticas podem induzir jogadores a pre-
ferir algumas estratgias.
5. Aprendizado. Agentes aprendem as estratgias dos outros jogando o mesmo jogo mui-
tas vezes. Por exemplo, pense na interao entre consumidores e vendedores. Eles
interagem repetidas vezes, em muitos casos um particular consumidor interage so-
mente uma vez com um dado vendedor, ou interage repetidamente mas anonimamente
como no caso em que o vendedor uma grande loja. Consumidores e vendedores mais
experientes podem formar crenas baseadas em interaes passadas com outros clientes
para obter um melhor resultado na barganha.
6. Evoluo. Agentes so programados para jogar certas estratgias e so pareados ale-
atoriamente uns contra os outros. Assuma que agentes no jogam um equilbrio de
Nash inicialmente. Ocasionalmente mutaes ocorrem, isto , agentes que jogam
uma estratgia diferente surgem. Se esta nova estratgia for lucrativa, estes agentes se
multiplicaro a uma taxa mais rpida do que outros agentes e eventualmente passam
a ser maioria. Sob certas circunstncias, este sistema converge para um estado onde os
agentes jogam um equilbrio de Nash, e futuras mutaes no podem mais se beneciar
de estratgias novas.
importante ressaltar que cada uma dessas interpretaes tem uma hiptese diferente
com respeito ao conhecimento dos agentes. Para o caso de estratgias prescritas suci-
ente que cada jogador seja racional, e simplesmente acredite no rbitro. Para introspeco
racional, necessrio que seja conhecimento comum que os jogadores so racionais. Para
evoluo, jogadores no precisam nem ser racionais.
Autor: Leandro Chaves Rgo
3.6. JOGO SIMTRICO EM FORMA NORMAL 46
Algumas interpretaes tm menos problemas em lidar com multiplicidade de equilbrios.
Se acreditarmos que o equilbrio surge por que um rbitro o prescreveu, ento no temos
que nos preocupar com o problema da multiplicidade de equilbrios de Nash. Introspeco
racional bem mais problemtica: cada um dos jogadores podem racionalizar qualquer um
dos mltiplos equilbrios e portanto no tm nenhuma maneira de escolher entre eles.
3.6 Jogo Simtrico em Forma Normal
Em muitas situaes estratgicas, os jogadores envolvidos possuem o mesmo conjunto de
aes e avaliam o resultado do jogo de maneira similar, ou seja, possuem a mesma utilidade
para os pers de estratgias independente de qual seja a sua posio no jogo. Estes jogos
so chamados de jogos simtricos. Formalmente, temos:
Denio 3.6.1: Um jogo em forma normal = (N, {C
i
: i N}, {u
i
: i N}) simtrico
se (1) C
i
= C
j
para todo par de jogadores i, j N e (2) se para todo par de jogadores i, j N
e perl de estratgias c C, temos u
i
(c) = u
j
(c

), onde c

k
= c
k
para todo k N {i, j},
c

i
= c
j
e c

j
= c
i
, ou seja, se c

for o perl de estratgias onde apenas as estratgias dos


jogadores i e j so permutadas em relao ao perl c, e a maneira que j avalia c

idntica
a que o jogador i avalia c.
Nessas situaes como os jogadores so simtricos faz sentido buscarmos um ponto de
equilbrio onde os jogadores utilizem a mesma estratgia. Para isto dene-se a noo de
equilbrio de Nash simtrico:
Denio 3.6.2: Um equilbrio de Nash

simtrico se

i
=

j
para todo par de jogadores
i, j N.
O prximo teorema prova que todo jogo em forma normal simtrico nito tem pelo menos
um equilbrio de Nash simtrico.
Teorema 3.6.3: Um jogo em forma normal simtrico nito tem pelo menos um equilbrio
de Nash simtrico.
Prova: A idia da prova anloga a prova da existncia do equilbrio de Nash no caso geral.
Considere a funo F
i
: (C
i
) (C
i
):
F
i
(
i
)(s) =

i
(s) + g
s
i
()
1 +

tC
i
g
t
i
()
,
onde s C
i
e o perl de estratgias mistas onde todos os jogadores jogam
i
. Vamos
mostrar que os pontos xos de F
i
constituem as estratgias dos equilbrios de Nash simtricos.
J provamos que se for um equilbrio de Nash (simtrico), ento
i
um ponto xo de F
i
,
pois neste caso temos g
s
i
() = 0 para todo s C
i
. Por outro lado, se
i
for um ponto xo de
F
i
, ento argumento idntico a prova da existncia do equilbrio de Nash, nos leva a concluir
Autor: Leandro Chaves Rgo
3.6. JOGO SIMTRICO EM FORMA NORMAL 47
que g
s
i
() = 0 para todo s C
i
, o que por sua vez implica que
i
uma melhor resposta
para
i
. Como o jogo simtrico, isto implica que um equilbrio de Nash simtrico.
Apesar de todo jogo simtrico possuir um equilbrio simtrico em estratgias mistas,
isto nem sempre verdade para equilbrios simtricos em estratgias puras. Por exemplo,
considere o seguinte jogo:
A B
A 0,0 1,1
B 1,1 0,0
Os equilbrios de Nash em estratgia puras deste jogo so ([B], [A]) e ([A], [B]). Portanto
no so simtricos. O nico equilbrio de Nash simtrico aquele no qual ambos os jogadores
escolhem cada uma de suas estratgias puras com probabilidade 1/2.
Exemplo 3.6.4: Considere o seguinte jogo em forma normal simtrico:
A B C
A 1,1 2,1 4,1
B 1,2 5,5 3,6
C 1,4 6,3 0,0
Encontre todos os equilbrios de Nash do jogo e determine quais so os equilbrios sim-
tricos.
Soluo: Primeiro note que os equilbrios em estratgias puras so ([A], [A]), ([C], [A]) e
([A], [C]). Vamos considerar se existe algum equilbrio onde o jogador 1 utiliza uma estratgia
com suporte em {A, B}. Neste caso, a melhor resposta para o jogador 2 seria escolher C
com probabilidade 1, o que por sua vez levaria o jogador 1 a escolher A com probabilidade
1. Logo, no existem equilbrios onde o jogador 1 (e por simetria o jogador 2) escolhe uma
estratgia com suporte em {A, B}.
Considere agora o caso em que o jogador 1 escolhe uma estratgia com suporte em
{A, C}. Neste caso, a melhor resposta para o jogador 2 seria escolher A com probabilidade
1. Neste caso, ento o jogador 1 estaria indiferente entre A e C e qualquer distribuio
de probabilidade com que ele escolhe uma dessas aes leva a um equilbrio de Nash. Por
simetria, se o jogador 2 tambm randomizar entre A e C e o jogador 1 escolher A com
probabilidade 1 tambm constitui um equilbrio.
Considere agora o caso em que o jogador 1 escolhe uma estratgia com suporte em{B, C}.
Seja p a probabilidade com que o jogador 1 escolhe B. Ento, as utilidades esperadas para
o jogador 2 das aes A, B e C so respectivamente: 2p + 4(1 p), 5p + 3(1 p) e 6p. Se
p 1/4, ento A uma melhor resposta para o jogador 2. Neste caso, o jogador 1 estaria
indiferente entre B e C e poderia randomizar entre essas estratgias. Se p = 1/4, ento
o jogador 2 indiferente entre A e B, mas j provamos que no existe nenhum equilbrio
onde 2 randomiza entre A e B. Se p = 1/2, ento o jogador 2 car indiferente entre A e
C, mas neste caso j vimos que o jogador 1 escolheria A com probabilidade 1, logo no h
equilbrio. Se p = 3/4, ento o jogador 2 car indiferente entre B e C, e por simetria, se o
jogador 2 tambm escolher B com probabilidade 3/4, o jogador 1 car indiferente entre B
Autor: Leandro Chaves Rgo
3.7. JOGO DE DOIS AGENTES COM SOMA CONSTANTE 48
e C, ento temos um equilbrio onde ambos jogadores escolhem B com probabilidade 3/4 e
C com probabilidade 1/4.
Finalmente, considere o caso em que o jogador 1 escolhe uma estratgia com suporte em
{A, B, C}. Suponha que o jogador 1 escolhe A, B e C com probabilidades p
1
, p
2
e 1p
1
p
2
,
respectivamente. Neste caso, a utilidade esperada para o jogador 2 das aes A, B e C so
respectivamente: p
1
+2p
2
+4(1 p
1
p
2
), p
1
+5p
2
+3(1 p
1
p
2
) e p
1
+6p
2
. Pela simetria
do problema, s poder existir um equilbrio neste caso se o jogador 2 tambm utilizar
uma estratgia com suporte em {A, B, C}, pois os demais casos j foram analisados. Para
tanto, as utilidades esperadas dessas 3 aes deve ser a mesma. Igualando as trs expresses
obtemos p
1
= 1 e p
2
= 0, o que no satisfaz a restrio do suporte ser em {A, B, C}, logo
no h equilbrios neste caso. Resumindo, temos os seguintes equilbrios:
([A], [A]), ([C], [A]) e ([A], [C]).
(p[A] + (1 p)[C], [A]) e ([A], p[A] + (1 p)[C]), para qualquer p (0, 1).
(p[B] + (1 p)[C], [A]) e ([A], p[B] + (1 p)[C]), para qualquer p (0, 1/4].
(3/4[B] + 1/4[C], 3/4[B] + 1/4[C]).
Apenas, o primeiro e o ltimo deles so simtricos.
3.7 Jogo de Dois Agentes com Soma Constante
Os primeiros trabalhos em teoria dos jogos se desenvolveram em jogos de soma constante,
em particular em jogos de soma zero. Um jogo com dois agentes com soma constante em
forma normal qualquer jogo = ({1, 2}, C
1
, C
2
, u
1
, u
2
) tal que
u
1
(s
1
, s
2
) + u
2
(s
1
, s
2
) = K, s
1
C
1
, s
2
C
2
.
Se K = 0, temos um jogo de soma zero. Note que jogos com dois agentes de soma constante
descrevem situaes em que os dois jogadores esto em plena oposio um ao outro, ou seja,
o ganho de um agente exatamente igual a perda do outro. Note que em tais jogos, podemos
descrever o objetivo do jogador 2 como sendo minimizar a utilidade esperada do jogador 1,
tendo em vista que minimizar a utilidade esperada do jogador 1 o mesmo que maximizar
a utilidade esperada do jogador 2. Portanto, no caso de um jogo de soma constante, s
precisamos saber a funo utilidade do jogador 1.
Suponha um jogo de soma constante de dois agentes nito onde o jogador i possui con-
junto de estratgias dada por C
i
= {s
i,1
, s
i,2
, . . . , s
i,k(i)
}. Seja A uma matriz k(1)k(2), onde
o elemento a
ij
representa a utilidade para o jogador 1 quando ele escolhe a estratgia s
1,i
e o
jogador 2 escolhe a estratgia s
2,j
, ou seja, a
ij
= u
i
(s
1,i
, s
2,j
). Dene-se um ponto de sela de
uma matriz como sendo um elemento da matriz que menor ou igual a todos na sua linha
e maior ou igual a todos na sua coluna. fcil ver que a
ij
um ponto de sela da matriz
A se, e somente se, (s
1,i
, s
2,j
) for um equilbrio de Nash em estratgias puras do jogo.
O prximo teorema trata do caso mais geral de equilbrios de Nash em estratgia mista
de um jogo de soma constante.
Autor: Leandro Chaves Rgo
3.7. JOGO DE DOIS AGENTES COM SOMA CONSTANTE 49
Teorema 3.7.1: (
1
,
2
) um equilbrio de Nash de um jogo nito de soma constante
= ({1, 2}, C
1
, C
2
, u
1
, u
2
), se e somente se,

1
argmax

1
(C
1
)
min

2
(C
2
)
u
1
(
1
,
2
)
e

2
argmin

2
(C
2
)
max

1
(C
1
)
u
1
(
1
,
2
).
Alm disso, se (
1
,
2
) for um equilbrio de Nash de , ento
u
1
(
1
,
2
) = max

1
(C
1
)
min

2
(C
2
)
u
1
(
1
,
2
) = min

2
(C
2
)
max

1
(C
1
)
u
1
(
1
,
2
).
Prova: Suponha primeiro que (
1
,
2
) um equilbrio de Nash. Ento,
max

1
(C
1
)
u
1
(
1
,
2
) = u
1
(
1
,
2
) = min

2
(C
2
)
u
1
(
1
,
2
).
Como u
1
(
1
,
2
) min

2
(C
2
)
u
1
(
1
,
2
) e u
1
(
1
,
2
) max

1
(C
1
)
u
1
(
1
,
2
), temos que
max

1
(C
1
)
u
1
(
1
,
2
) max

1
(C
1
)
min

2
(C
2
)
u
1
(
1
,
2
)
e
min

2
(C
2
)
u
1
(
1
,
2
) min

2
(C
2
)
max

1
(C
1
)
u
1
(
1
,
2
).
Alm disso, como
1
(C
1
) e
2
(C
2
), temos que
max

1
(C
1
)
min

2
(C
2
)
u
1
(
1
,
2
) min

2
(C
2
)
u
1
(
1
,
2
)
e
min

2
(C
2
)
max

1
(C
1
)
u
1
(
1
,
2
) max

1
(C
1
)
u
1
(
1
,
2
).
Portanto,
u
1
(
1
,
2
) = max

1
(C
1
)
u
1
(
1
,
2
)
max

1
(C
1
)
min

2
(C
2
)
u
1
(
1
,
2
)
min

2
(C
2
)
u
1
(
1
,
2
) = u
1
(
1
,
2
)
e
u
1
(
1
,
2
) = min

2
(C
2
)
u
1
(
1
,
2
)
min

2
(C
2
)
max

1
(C
1
)
u
1
(
1
,
2
)
max

1
(C
1
)
u
1
(
1
,
2
) = u
1
(
1
,
2
).
Autor: Leandro Chaves Rgo
3.7. JOGO DE DOIS AGENTES COM SOMA CONSTANTE 50
Logo, devemos ter igualdade acima, o que implica que
u
1
(
1
,
2
) = max

1
(C
1
)
min

2
(C
2
)
u
1
(
1
,
2
) = min

2
(C
2
)
max

1
(C
1
)
u
1
(
1
,
2
).
Alm disso, como
min

2
(C
2
)
u
1
(
1
,
2
) = max

1
(C
1
)
min

2
(C
2
)
u
1
(
1
,
2
)
e
max

1
(C
1
)
u
1
(
1
,
2
) = min

2
(C
2
)
max

1
(C
1
)
u
1
(
1
,
2
),
temos que

1
argmax

1
(C
1
)
min

2
(C
2
)
u
1
(
1
,
2
)
e

2
argmin

2
(C
2
)
max

1
(C
1
)
u
1
(
1
,
2
).
Para provar a recproca suponha que

1
argmax

1
(C
1
)
min

2
(C
2
)
u
1
(
1
,
2
)
e

2
argmin

2
(C
2
)
max

1
(C
1
)
u
1
(
1
,
2
).
Como temos um jogo nito, sabe-se que existe um equilbrio de Nash do jogo, ento segue
da primeira parte da prova que
max

1
(C
1
)
min

2
(C
2
)
u
1
(
1
,
2
) = min

2
(C
2
)
max

1
(C
1
)
u
1
(
1
,
2
).
Portanto, segue que
u
1
(
1
,
2
) min

2
(C
2
)
u
1
(
1
,
2
)
= max

1
(C
1
)
min

2
(C
2
)
u
1
(
1
,
2
)
= min

2
(C
2
)
max

1
(C
1
)
u
1
(
1
,
2
)
= max

1
(C
1
)
u
1
(
1
,
2
) u
1
(
1
,
2
).
Logo, devemos ter igualdade acima, e temos
u
1
(
1
,
2
) = max

1
(C
1
)
u
1
(
1
,
2
)
e
u
1
(
1
,
2
) = min

2
(C
2
)
u
1
(
1
,
2
) = K max

2
(C
2
)
u
2
(
1
,
2
).
Portanto, (
1
,
2
) equilbrio de Nash.
Autor: Leandro Chaves Rgo
3.7. JOGO DE DOIS AGENTES COM SOMA CONSTANTE 51
Este teorema implica que em todos os equilbrios de um jogo de soma constante os
jogadores tm a mesma utilidade esperada. Vamos ver a seguir que podemos determinar
a soluo de um jogo de soma constante nito atravs da soluo de dois problemas de
programao lineares. Seja A a matriz de dimenso k(1) k(2) de utilidades do jogador
1. Como preferncias so invariantes a transformaes ans positivas da funo utilidade,
podemos assumir sem perda de generalidade que todos os elementos de A so positivos.
Sejam c e b duas matrizes colunas de dimenses k(1) e k(2), respectivamente, onde todos
os elementos so iguais a 1. Neste desenvolvimento vamos associar uma estratgia mista
para o jogador i como sendo um vetor coluna de dimenso k(i), onde os elementos so no
negativos e cuja soma igual a 1. Considere o seguinte problema de programao linear:
max b
T
y
sujeito a Ay c, y 0.
Como os elementos de A so positivos, fcil ver que o conjunto vivel no vazio e
compacto. Portanto, existe uma soluo. O problema dual pode ser escrito como:
min c
T
x
sujeito a x
T
A b
T
, x 0.
O Teorema da Dualidade de programao linear nos garante que se o problema primal
possui uma soluo y

o problema dual tambm possui uma soluo x

de tal forma que


b
T
y

= c
T
x

. Dena = b
T
y

. Como os elementos de A so no negativos, temos que > 0.


Note que x
T
Ay

= (multiplique a restrio do problema primal por x


T
a esquerda para
obter x
T
Ay

e a restrio do problema dual por y

a direita para obter x


T
Ay

).
Vamos provar que
1
= x

/ e
2
= y

/ um equilbrio de Nash do jogo. Como x


T
A b
T
,
temos que para qualquer (C
2
), x
T
A b
T
=

k(2)
i=1
(s
2,i
) = 1. Dividindo tudo por
, temos
u
1
(
1
, ) =
T
1
A = ()
1
x
T
A ()
1
(3.6)
= ()
2
x
T
Ay

=
T
1
A
2
= u
1
(
1
,
2
).
Portanto, o jogador 2 no tem incentivo a desviar sua estratgia de
2
para . Similarmente,
como Ay

c, temos que para qualquer (C


1
),
T
Ay


T
c =

k(1)
i=1
(s
1,i
) = 1.
Dividindo tudo por , temos
u
1
(,
2
) =
T
A
2
=
T
Ay

()
1
()
1
(3.7)
= ()
2
x
T
Ay

=
T
1
A
2
= u
1
(
1
,
2
).
Portanto, o jogador 1 no tem incentivo a desviar sua estratgia de
1
para . Logo, (
1
,
2
)
um equilbrio de Nash do jogo. O prximo exemplo ilustra esta metodologia para o clculo
do equilbrio de Nash em jogos de soma constante.
Exemplo 3.7.2: Considere o seguinte jogo de soma constante:
Autor: Leandro Chaves Rgo
3.7. JOGO DE DOIS AGENTES COM SOMA CONSTANTE 52
A B C D
A 8,2 6,4 1,9 2,8
B 5,5 3,7 7,3 5,5
C 7,3 10,0 0,10 6,4
D 7,3 5,5 5,5 9,1
Neste caso, a matriz A dada por:
_
_
_
_
8 6 1 2
5 3 7 5
7 10 0 6
7 5 5 9
_
_
_
_
Resolvendo o problema de programao linear primal acima, chegamos ao vetor y
T
=
[0
1
10
1
10
0]. J o problema dual possui uma innidade de solues da forma x
T
= [0
5p
35
2p
35
2(1p)
10
],
onde p [0, 1]. Desta forma, temos que = 2/10 e que os equilbrios de Nash do jogo so
da forma (
1
,
2
), onde
1
= [0
5p
7
2p
7
(1 p)], onde p [0, 1], e
2
= [0
1
2
1
2
0].
Autor: Leandro Chaves Rgo
Captulo 4
Jogos em Forma Extensa
4.1 Introduo
At o momento estudamos apenas casos onde jogadores se movem ao mesmo tempo e uma
nica vez. Contudo em muitas situaes estratgicas os jogadores implementam suas estra-
tgias ao longo do tempo e podem obter informaes sobre as estratgias que esto sendo
utilizadas pelos outros jogadores. Para analisar tais situaes precisamos de uma outra forma
de representar jogos, que conhecida como representao em forma extensa (ou extensiva)
de jogos. Intuitivamente, um jogo em forma extensa descreve o conjunto de jogadores, quem
se move e quando e quais so suas opes, a utilidade dos jogadores para cada possvel ma-
neira de jogo ser realizado, e nalmente, o que os jogadores sabem quando se movem em
cada situao do jogo. Em um jogo em forma extensa admite-se a possibilidade de eventos
aleatrios inuenciarem na realizao do jogo, como por exemplo, o resultado da jogada de
um dado. Tais eventos aleatrios so representados no jogo como se fossem feitos por um ou-
tro jogador denominado chance ou natureza, sendo que este jogador no possui preferncias
sobre os possveis resultados do jogo.
4.2 Jogos com Informao Perfeita
Formalmente, temos que um jogo em forma extensa com informao perfeita um vetor
= (N, M, H, P, f
c
, {u
i
: i N}), onde
N um conjunto que consiste dos agentes participando do jogo.
M um conjunto cujos elementos so os movimentos ou aes disponveis aos jogadores
ou a chance durante o jogo.
H um conjunto de sequncias de movimentos (elementos de M) que fechado com
relao a prexos, isto , se h H e h

for um prexo de h, ento h

H.
1
Alm disso,
1
Um prexo de uma sequncia (x
n
) de comprimento K qualquer subsequncia de (x
n
) que consiste dos
primeiros l K termos de (x
n
). Por exemplo, se h = m
5
, m
8
, m
1
os prexos de h so ,m
5
,m
5
, m
8
, e
m
5
, m
8
, m
1
. Se h

for um prexo de h mas h

no for igual a h diz-se que h

um prexo estrito de h.
53
4.2. JOGOS COM INFORMAO PERFEITA 54
se a
1
, . . . a
K
H para todo inteiro nito K, ento (a
n
)

n=1
H. Denotaremos por
X(h) o conjunto de prexos de h.
Intuitivamente, cada membro de H uma possvel histria do jogo. Podemos identicar
ns em uma rvore com histrias em H. Cada n n caracterizado por uma sequncia
de aes necessrias para atingirmos n. Uma trajetria completa em H uma histria
terminal, uma que no prexo estrito de nenhuma outra histria em H. Seja Z o
conjunto de trajetrias completas de H. Seja M
h
= {m M : h m H} (onde
utilizamos para denotar concatenao de sequncias); M
h
o conjunto de aes que
podem ser tomadas aps a histria h.
P : (H Z) N {c} uma funo que associa cada histria no terminal h a um
elemento de N {c}. (c representa o jogador chance ou natureza.)
Se P(h) = i, ento jogador i se move aps histria h; se P(h) = c, ento chance se
move aps h. Seja H
i
= {h : P(h) = i} o conjunto de todas histrias aps as quais o
jogador i se move.
f
c
um funo que associa a cada histria em que P(h) = c uma medida de pro-
babilidade f
c
( | h) em M
h
. Intuitivamente, f
c
( | h) descreve uma distribuio de
probabilidade sobre as aes disponveis para a natureza uma vez que a histria h
atingida.
u
i
: Z IR a funo utilidade para o jogador i, que associa um nmero real (utilidade
de i) para cada trajetria completa do jogo.
Um jogo em forma extensa nito se N, M, e H forem nitos. O prximo exemplo
ilustra a relao entre uma rvore de jogo e a denio formal de jogos em forma extensa
dada acima.
Exemplo 4.2.1:
Figura 4.1: Um jogo em forma extensa simples.
No jogo da Figura 4.1, temos
Autor: Leandro Chaves Rgo
4.2. JOGOS COM INFORMAO PERFEITA 55
N = {A, B}, H = { , down
A
, across
A
, across
A
, down
B
, across
A
, across
B
},
P( ) = A, P(across
A
) = B,
H
A
= { }, H
B
= {across
A
},
Z = {down
A
, across
A
, down
B
, across
A
, across
B
}
u
A
(down
A
) = u
B
(down
A
) = 1,
u
A
(across
A
, down
B
) = 2,
u
B
(across
A
, down
B
) = 3,
u
A
(across
A
, across
B
) = 0, e
u
B
(across
A
, across
B
) = 2.
Exemplo 4.2.2: Competio de Stackelberg. Suponha que uma rma 1 desenvolve uma
nova tecnologia antes que uma rma 2 e como consequncia tem a oportunidade de construir
uma fbrica e escolher um nvel de produo q
1
antes que a rma 2 comece sua produo. A
rma 2 ento observa a escolha da rma 1 antes de escolher seu nvel de produo q
2
. Por
exemplo, assuma que q
i
{0, 1, 2}, que o preo de mercado dado por p(q
1
, q
2
) = 3q
1
q
2
,
e que o custo de produo zero. As rmas so obrigadas a vender toda a produo pelo
preo de mercado pois no possuem local para armazenagem e a destruio de produtos tem
um custo muito elevado. Deste modo temos que:
N = {1, 2}, H = { , 0, 1, 2, 0, 0, 0, 1, 0, 2, 1, 0, 1, 1, 1, 2, 2, 0, 2, 1,
2, 2},
P( ) = 1, P(0) = P(1) = P(2) = 2,
u
1
(0, q
2
) = u
1
(1, 2) = u
1
(2, 1) = 0,
u
1
(1, 0) = u
1
(2, 0) = 2,
u
1
(1, 1) = u
2
(1, 1) = 1, u
1
(2, 2) = u
2
(2, 2) = 2,
u
2
(q
1
, 0) = u
2
(1, 2) = u
2
(2, 1) = 0, e
u
2
(0, 1) = u
2
(0, 2) = 2.
Autor: Leandro Chaves Rgo
4.2. JOGOS COM INFORMAO PERFEITA 56
4.2.1 Estratgias
Denio 4.2.3: Uma estratgia pura para o jogador i em um jogo em forma extensa com
informao perfeita uma funo s
i
que associa cada histria h H
i
um elemento de M
h
,
ou seja, uma ao disponvel para i em h.
Denio 4.2.4: Se C
i
o conjunto de estratgias puras para o jogador i em um jogo em
forma extensa com informao perfeita, uma estratgia mista para o jogador i em um jogo
em forma extensa uma distribuio de probabilidade
i
em C
i
, ou seja, um elemento de
(C
i
).
Para jogos em forma extensa com informao perfeita existe uma outra noo de estrat-
gia, chamada de estratgia comportamental, que especica uma randomizao independente
para cada histria em que o jogador se move.
Denio 4.2.5: Uma estratgia comportamental para o jogador i em um jogo em forma
extensa com informao perfeita uma funo
i
que associa cada histria h H
i
um
elemento de (M
h
), ou seja, uma distribuio de probabilidade sobre as aes disponveis
para i em h.
Note que uma estratgia um plano de contingncia completo que explica o que um
jogador ir fazer em cada situao que possa aparecer no jogo. A primeira vista, uma
estratgia parece especicar aes em excesso, pois aes no comeo do jogo podem tornar
impossvel que certas histrias sejam atingidas. Ento, por que temos que especicar como
jogadores se comportam em histrias que nunca sero atingidas se os jogadores seguem certas
aes no comeo do jogo? A razo que como jogadores se comportam fora da trajetria de
equilbrio ser crucial para determinar se um dado perl de estratgias um equilbrio de
Nash. Ameaas em caminhos fora do equilbrio podem ser essenciais. Falaremos mais sobre
isso adiante.
Exemplo 4.2.6:
Figura 4.2: Um jogo em forma extensa no qual o jogador 1 se move antes e depois do jogador
2.
Neste jogo, jogador 1 possui quatro estratgias puras: AE, AF, BE, BF. Jogador 2
possui duas estratgias puras: C e D. Note que temos que especicar o que o jogador 1 far
aps a histria B, D, mesmo que ele tenha escolhido A no comeo.
Autor: Leandro Chaves Rgo
4.2. JOGOS COM INFORMAO PERFEITA 57
4.2.2 Representao em Formal Normal de um Jogo em Forma Ex-
tensa com Informao Perfeita
Alguns conceitos de soluo para jogos em forma extensiva utilizam uma representao forma
normal que derivada a partir da descrio em forma extensa do jogo. Veremos nesta seo
trs possveis maneiras de representar um jogo em forma extensa em uma forma normal:
forma normal, forma normal reduzida, e forma multiagente.
Forma Normal
Antes de darmos a denio da representao em forma normal de um jogo em forma extensa,
note que dado um perl de estratgias puras para os jogadores em um jogo em forma extensa,
essas estratgias induzem uma distribuio de probabilidade sobre as possveis histrias
do jogo em forma em extensa. Formalmente, suponha que os jogadores jogam o perl de
estratgias pura s, ento Pr
s
(h) representa a probabilidade do jogo atingir a histria h dado
que os jogadores seguem as estratgias em s. Temos que Pr
s
( ) = 1. Se h = h

m, o
jogador chance se move aps a histria h

, e q a probabilidade com que a chance escolher


a ao m, ento temos que Pr
s
(h) = qPr
s
(h

). Se h = h

m, e h

H
i
, ento Pr
s
(h) =
Pr
s
(h

) se s
i
(h

) = m, e Pr
s
(h) = 0, se s
i
(h

) = m. Podemos tambm denir de forma


anloga, a probabilidade Pr

(h) do jogo atingir a histria h dado que os jogadores seguem


as estratgias comportamentais em , a nica diferena da denio anterior que no caso em
que h = h

m e h

H
i
, temos que Pr

(h) =
i
(m)Pr

(h

). A distribuio de probabilidade
induzida por uma estratgia mista
iN
(C
i
) dada pelo valor esperado de acordo com
das distribuies induzidas pelas estratgias puras, ou seja, Pr

(h) =

sC
(s)Pr
s
(h).
Exemplo 4.2.7: Considere o jogo do Exemplo 4.2.6. Se o perl de estratgias puras for
s = (BE, C), ento teremos Pr
s
(B) = Pr
s
(B, C) = 1, Pr
s
(A) = Pr
s
(B, D) =
Pr
s
(B, D, E) = Pr
s
(B, D, F) = 0. Por outro lado, se tivermos um perl de estratgias
mistas onde cada jogador escolhe suas estratgias puras com igual probabilidade, temos
que Pr

(A) = Pr

(B) = 1/2, Pr

(B, C) = Pr

(B, D) = 1/4, Pr

(B, D, E) =
Pr

(B, D, F) = 1/8. Finalmente, se for um perl de estratgias comportamental no


qual todos os jogadores em qualquer histria aps a qual eles se movem escolhem as suas
aes disponveis com igual probabilidade, teremos Pr

(h) = Pr

(h), para todo h H.


Denio 4.2.8: A representao em forma normal de um jogo em forma extensa com
informao perfeita = (N, M, H, P, f
c
, {v
i
: i N}) o jogo em forma normal
n
=
(N, {C
i
: i N}, {u
i
: i N}), onde C
i
so as estratgias puras do jogador i em e para
todo s
iN
C
i
, temos
u
i
(s) =

zZ
Pr
s
(z)v
i
(z),
ou seja, u
i
a utilidade esperada para o jogador i quando os jogadores implementam as
estratgias especicadas em s.
Exemplo 4.2.9: Por exemplo, a representao em forma normal do jogo em forma extensa
descrito no Exemplo 4.2.6 dada por:
Autor: Leandro Chaves Rgo
4.2. JOGOS COM INFORMAO PERFEITA 58
C D
AE 1,1 1,1
AF 1,1 1,1
BE 0,3 2,2
BF 0,3 1,4
Forma Normal Reduzida
Existem alguns jogos em forma extensiva que podemos simplicar sua representao em
forma normal, pois existem vrias estratgias puras para algum jogador i que tm a mesma
utilidade esperada para todos os jogadores no importa qual a estratgia adotada pelos
outros jogadores. Formalmente, dado qualquer jogo em forma normal = (N, {C
i
: i
N}, {u
i
: i N}), duas estratgias puras em d
i
, e
i
C
i
so equivalentes em utilidade se, e
somente se,
u
j
(d
i
, c
i
) = u
j
(e
i
, c
i
), c
i
C
i
, j N.
Portanto, duas estratgias para o jogador i so equivalentes em utilidade se, e somente se,
no importa o que os outros jogadores faam, nenhum jogador se importar se o jogador i
escolher d
i
ou e
i
. Por exemplo, no jogo descrito no Exemplo 4.2.9, as estratgias do jogador 1
AE e AF so equivalentes em utilidade. Quando existem estratgias que so equivalentes em
utilidade podemos simplicar a representao em forma normal, denotando as estratgias
equivalentes por uma nica estratgia. O resultado desta simplicao conhecido como
forma normal puramente reduzida.
Exemplo 4.2.10: Por exemplo, a representao em forma normal puramente reduzida do
jogo em forma extensa descrito no Exemplo 4.2.6 dada por:
C D
A 1,1 1,1
BE 0,3 2,2
BF 0,3 1,4
Se permitirmos estratgias mistas, podemos ter um outro tipo de redundncia em jogos
chamada de redundncia aleatria que pode nos permitir reduzir ainda mais a representao
em forma normal de um jogo. Uma estratgia d
i
C
i
aleatoriamente redundante se, e
somente se, existe uma estratgia mista
i
(C
i
) tal que
i
(d
i
) = 0 e
u
j
(d
i
, c
i
) =

e
i
C
i

i
(e
i
)u
j
(e
i
, c
i
), c
i
C
i
, j N.
Portanto, d
i
aleatoriamente redundante se, e somente se, existe alguma maneira para o
jogador i escolher aleatoriamente entre suas outras estratgias puras de forma que, no im-
porta qual estratgias sero usadas pelos outros jogadores, todos os jogadores tero a mesma
Autor: Leandro Chaves Rgo
4.2. JOGOS COM INFORMAO PERFEITA 59
utilidade esperada quando i utiliza d
i
ou
i
. A forma normal completamente reduzida de-
rivada da forma normal puramente reduzida eliminando estratgias que so aleatoriamente
redundantes.
Exemplo 4.2.11:
D E
A 6,0 6,0
B 0,8 8,0
C 3,4 7,0
A estratgia C aleatoriamente redundante, pois todos os jogadores recebem o mesmo
pagamento se o jogador linha escolhe C ou a estratgia mista que escolhe A e B com pro-
babilidade igual a 1/2. Portanto a forma normal completamente reduzida deste jogo, no
contm a ltima linha da tabela acima.
Representao Multiagente
Nesta representao cada jogador i do jogo em forma extensiva representado por mltiplos
agentes um para cada histria aps a qual o jogador i se move. Dado um jogo com informao
perfeita = (N, M, H, P, f
c
, {v
i
: i N}) seja H
N
=
iN
H
i
o conjunto de histrias aps a
qual algum jogador i se move.
Denio 4.2.12: A representao multiagente de um jogo em forma extensa com infor-
mao perfeita = (N, M, H, P, f
c
, {v
i
: i N}) o jogo em forma normal
n
= (H
N
, {M
h
:
h H
N
}, {u
h
: h H
N
}), onde relembrando se h H
i
, temos que M
h
so as aes dis-
ponveis ao jogador i aps histria h. Para todo perl de estratgias de
n
, t
hH
N
M
h
,
seja s
t
um perl de estratgias de tal que para todo j N e h H
j
temos s
t
j
(h) = t
h
.
Ento, se h H
i
, u
h
:
aH
N
M
a
IR uma funo utilidade para um jogador h tal que
u
h
(t) =

zZ
Pr
s
t (z)v
i
(z).
Exemplo 4.2.13: Considere novamente o jogo a seguir:
Figura 4.3: Um jogo em forma extensa no qual o jogador 1 se move antes e depois do jogador
2.
A representao multiagente tem trs jogadores , B, e B, D, o jogador possui
duas aes disponveis A e B, o jogador B possui tambm duas aes disponveis C e D,
e nalmente o jogador B, D possui tambm duas aes disponveis E e F. As utilidades
so descritas nas duas tabelas a seguir:
Quando o agente B, D escolhe E, temos:
Autor: Leandro Chaves Rgo
4.2. JOGOS COM INFORMAO PERFEITA 60
C D
A 1,1,1 1,1,1
B 0,3,0 2,2,2
E quando o agente B, D escolhe F, temos:
C D
A 1,1,1 1,1,1
B 0,3,0 1,4,1
Quando estamos considerando a representao multiagente, os diferentes agentes do jogo
em forma normal que representa o mesmo jogador no jogo em forma extensa so conhecidos
como agentes temporrios. No exemplo, temos que e B, D so dois agentes temporrios
para o jogador 1 do jogo em forma extensa. importante ressaltar que os diversos agentes
temporrios para um dado jogador i no podem correlacionar suas estratgias e agem de
maneira independente na representao multiagente do jogo, apesar de possurem a mesma
funo utilidade.
4.2.3 Equilbrio de Nash
Como existem trs tipos de estratgias para um jogo em forma extensa, podemos denir trs
tipos de equilbrios de Nash:
Denio 4.2.14: Dado um jogo em forma extensa com informao perfeita = (N, M, H, P, f
c
, {v
i
:
i N}), um perl de estratgias s um equilbrio de Nash em estratgias puras de se, e
somente se,
u
i
(s) =

zZ
Pr
s
(z)v
i
(z) u
i
(s
i
, d
i
) =

zZ
Pr
(s
i
,d
i
)
(z)v
i
(z)
para todo jogador i e toda estratgia d
i
C
i
.
Denio 4.2.15: Dado um jogo em forma extensa com informao perfeita = (N, M, H, P, f
c
, {v
i
:
i N}), um perl de estratgias um equilbrio de Nash em estratgias mistas de se, e
somente se,
u
i
() =

sC
(s)

zZ
Pr
s
(z)v
i
(z) u
i
(
i
,
i
) =

sC

i
(s
i
)
i
(s
i
)

zZ
Pr
s
(z)v
i
(z)
para todo jogador i e toda estratgia mista
i
(C
i
).
Denio 4.2.16: Dado um jogo em forma extensa com informao perfeita = (N, M, H, P, f
c
, {v
i
:
i N}), um perl de estratgias um equilbrio de Nash em estratgias comportamentais
de se, e somente se,
u
i
() =

zZ
Pr

(z)v
i
(z) u
i
(
i
,
i
) =

zZ
Pr
(
i
,
i
)
(z)v
i
(z)
para todo jogador i e toda estratgia comportamental
i

hH
i
(M
h
).
Autor: Leandro Chaves Rgo
4.2. JOGOS COM INFORMAO PERFEITA 61
Exemplo 4.2.17: No jogo do Exemplo 4.2.6, temos que (A, C, E), (A, C, F), e (A, D, F)
so os nicos equilbrios de Nash em estratgias puras.
Equilbrio de Nash no um conceito de soluo muito razovel para alguns jogos ex-
tensivos, por que ele permite que muitos pers de estratgias sejam equilbrios, alguns at
no-intuitivos.
Exemplo 4.2.18:
Figura 4.4: Jogo com equilbrio de Nash no-intuitivo.
Neste jogo temos que (down
A
,across
B
) um equilbrio de Nash do jogo. Neste equilbrio,
jogador A escolhe down
A
por que ele pensa que o jogador B escolher across
B
. Ento,
a ameaa do jogador B de jogar across
B
faz com que o jogador A escolha down
A
. Note
que neste equilbrio esta ameaa nunca se concretiza, pois o jogador B no tem chance
de escolher. Contudo, se o jogador B em algum caso tivesse oportunidade de participar
deste jogo, temos que ele no cumpriria sua ameaa, pois lhe vantajoso escolher down
B
.
Portanto, a ameaa do jogador B inacreditvel. Isto sugere que devemos apenas considerar
um subconjunto dos equilbrios de Nash que no so baseados em ameaas inacreditveis.
O prximo conceito de soluo conhecido como equilbrio de subjogo perfeito e impede que
equilbrios contenham ameaas inacreditveis.
4.2.4 Equilbrio de Subjogo Perfeito
Vimos em geral que quando analisamos equilbrios de Nash de jogos em forma extensiva estes
podem conter muitos equilbrios. Muitos desses equilbrios podem parecer no razoveis pois
so baseados em ameaas inacreditveis. Equilbrio de Subjogo Perfeito um renamento
de equilbrio de Nash que no permite ameaas inacreditveis.
Denio 4.2.19: Um subjogo G de um jogo em forma extensiva = (N, M, H, P, f
c
, {v
i
:
i N}) um outro jogo em forma extensiva que satisfaz:
1. O conjunto de histrias H
G
em G consiste de uma nica histria em H e todos as
histrias subsequentes a h;
Autor: Leandro Chaves Rgo
4.2. JOGOS COM INFORMAO PERFEITA 62
2. A distribuio de probabilidade sobre as aes da natureza em G so as mesmas das
correspondentes aes em ;
3. A utilidades de trajetrias completas em G so as mesmas utilidades das correspon-
dentes trajetrias completas em .
Denio 4.2.20: Um perl de estratgia (puro, misto, ou comportamental) s

um equi-
lbrio de subjogo perfeito em estratgias (puras, mistas, ou comportamentais, respectiva-
mente) de se ele for equilbrio de Nash em estratgias (puras, mistas, ou comportamentais,
respectivamente) de todo subjogo de .
Note que um equilbrio de subjogo perfeito tambm um equilbrio de Nash porque o
jogo tambm um subjogo degenerado dele mesmo.
Induo Reversa
A tcnica mais comum para encontrar os equilbrios de subjogo perfeito de um jogo nito
conhecida como induo reversa. Intuitivamente, temos que a tcnica sugere que se comece
pelo m do jogo e v resolvendo at chegar ao comeo do jogo. Podemos descrever mais
formalmente esta tcnica nos seguintes passos:
1. Seja k = 1 e (k) = .
2. Seja Z
1
o conjunto de todas as histrias que so antecessoras imediatas das histrias
terminais do jogo (k). Para todo i N e h Z
1
H
i
, o jogador i enfrenta um
problema de deciso aps histria h, e portanto deve escolher a ao que maximiza
sua utilidade esperada. Se houver mais de uma ao que produza a mesma utilidade
esperada, existir um equilbrio de subjogo perfeito contendo cada uma dessas aes.
Escolha uma delas para ser a ao escolhida por i segundo a estratgia s, isto , faa
s
i
(h) = a argmax
bM
h
u
i
(h b). Passe ao passo seguinte.
3. Dena o jogo (k + 1) da seguinte maneira:
(a) Para todo h Z
1
(
iN
H
i
), substitua as aes em M
h
do jogo (k), pelo vetor
de utilidades que corresponde a histria terminal atingida pela ao escolhida no
passo anterior. Passe ao passo seguinte.
(b) Para todo h Z
1
(
iN
H
i
)
c
, isto uma histria imediatamente antecessora a
uma histria terminal do jogo (k) onde chance se move, substitua as aes em
M
h
, pelo vetor de utilidades que corresponde a utilidade esperada dos jogadores
de acordo com a distribuio de probabilidade que descreve as probabilidades do
jogador chance escolher cada uma das aes em M
h
. Passe ao passo seguinte.
4. Se o conjunto de todas as histrias de (k+1) em que algum jogador i N se move for
vazio. Pare a iterao e temos que s um equilbrio de subjogo perfeito em estratgias
puras de . Caso contrrio, passe ao passo seguinte.
Autor: Leandro Chaves Rgo
4.3. JOGOS COM INFORMAO IMPERFEITA 63
5. Faa k = k + 1. Volte ao passo 2.
fcil ver que como o jogo nito, aps um nmero nito de iteraes o algoritmo
acima descrito produzir um equilbrio de subjogo perfeito em estratgias puras. Desta
forma, provamos construtivamente o seguinte teorema:
Teorema 4.2.21: Qualquer jogo em forma extensiva com informao perfeita nito tem um
equilbrio de subjogo perfeito puro.
Exemplo 4.2.22: No jogo do Exemplo 4.2.6, temos que (A, C, E) o nico equilbrio de
subjogo perfeito.
Exemplo 4.2.23: No jogo do Exemplo 4.2.18, temos que (across
A
,down
B
) o nico equil-
brio de subjogo perfeito.
4.3 Jogos com Informao Imperfeita
Agora, vamos estudar jogos extensivos onde os jogadores ao tomarem sua deciso aps
alguma histria do jogo, podem ter somente uma informao parcial sobre as aes que j
foram tomadas no jogo. Note que um jogo em forma normal um caso particular de um
jogo extensivo com informao imperfeita, pois neste caso todos os jogadores se movem uma
nica vez e cada um deles no possui nenhuma informao a respeito das aes dos outros
jogadores quando toma a sua deciso.
Formalmente, temos que um jogo em forma extensa com informao imperfeita um
vetor = (N, M, H, P, f
c
, {I
i
: i N}, {u
i
: i N}), onde
(N, M, H, P, f
c
, {u
i
: i N}) um jogo em forma extensa com informao perfeita, e
I
i
uma partio de H
i
com a propriedade que se h e h

esto na mesma clula da


partio, ento M
h
= M
h
, ou seja, o mesmo conjunto de aes est disponvel em
todas as histrias de uma mesma clula da partio; se h I, onde I uma clula
da partio, denota-se por M
I
o conjunto M
h
de aes disponveis. Intuitivamente,
se h e h

esto na mesma clula de I


i
, ento h e h

so indistinguveis do ponto de
vista do jogador i; i considera a histria h

possvel se a verdadeira histria for h, e


vice versa. Uma clula I I
i
conhecida como um conjunto de informao para o
jogador i ou como um i-conjunto de informao. Quando desenhamos um jogo em
forma extensa com informao imperfeita em uma rvore circulamos ou interligamos
os ns pertencentes a um mesmo conjunto de informao com uma linha tracejada.
Como anteriormente, um jogo em forma extensa com informao imperfeita nito se
N, M, e H forem nitos.
Exemplo 4.3.1:
No jogo da Figura 4.5, temos
N = {1, 2}, H = { , A, B, C, B, D, C, D, B, E, C, E B, E, F,
B, E, G, C, E, H, C, E, I},
Autor: Leandro Chaves Rgo
4.3. JOGOS COM INFORMAO IMPERFEITA 64
Figura 4.5: Jogo em Forma Extensiva com Informao Imperfeita.
P( ) = P(B, E) = P(C, E) = 1, e P(B) = P(C) = 2,
I
1
= {{ }, {B, E}, {C, E}}, I
2
= {{B, C}},
u
1
(A) = u
2
(A) = u
1
(C, D) = u
1
(C, E, I) = u
1
(B, E, G) = u
2
(C, E, H) = 1,
u
1
(B, E, F) = u
2
(B, E, F) = 2,
u
2
(B, D) = u
2
(C, E, I) = 3,
u
2
(B, E, G) = 4, e
u
1
(C, E, H) = u
2
(C, D) = 5.
4.3.1 Memria Perfeita e Memria Imperfeita
Na maior parte deste curso, como na maioria dos trabalhos em teoria dos jogos, ns assumi-
mos que jogadores tm memria perfeita: eles recordam de todas as aes que eles prprios
tomaram e de todos os conjuntos de informao pelos quais eles passaram. Formalmente,
vamos requerer que
se h e h

esto no mesmo conjunto de informao do jogador i e h


1
um prexo de h
tal que P(h
1
) = i, ento existe um prexo h

1
de h

tal que h
1
e h

1
esto no mesmo
conjunto de informao; alm disso, se h
1
m for um prexo de h (de forma que m
foi a ao realizada quando h
1
foi atingida na histria h), ento h

1
m um prexo
de h

(portanto, i lembra que ele realizou ao m).


Podemos ver um jogo extenso com informao perfeita como um caso particular do jogo
extenso com informao imperfeita onde todos os conjuntos de informao contm uma nica
histria. fcil vericar que em todo jogo com informao perfeita, todos os jogadores tm
memria perfeita.
Podemos distinguir 3 tipos diferentes de memria imperfeita:
Autor: Leandro Chaves Rgo
4.3. JOGOS COM INFORMAO IMPERFEITA 65
Falta de memria sobre a sequncia de conjuntos de informao pelo qual o jogador
passou;
Falta de memria sobre aes j realizadas pelo jogador; e
Falta de memria sobre se o jogador j realizou ou no uma dada ao.
A Figura 4.6 ilustra jogos extensivos da esquerda para a direita que apresentam estes 3
tipos de falta de memria, respectivamente.
Figura 4.6: Jogos Extensivos com Memria Imperfeita.
Apesar de no ter recebido muita ateno da literatura, jogos com memria imperfeita
tm tido cada vez mais aplicaes principalmente quando estamos tratando de agentes com-
putacionais que possuem memria nita e tm de realizar uma dada escolha repetidas vezes.
Eventualmente, tais agentes no se recordam das aes que eles realizaram no passado, ou
que conjuntos de informao eles j visitaram. Existem outras situaes onde tambm mo-
delos de jogos com memria imperfeita parecem ser razoveis. Suponha, por exemplo, que
queremos modelar uma partida de xadrez. Parece razovel supor que os jogadores no ne-
cessariamente se lembram de todas as jogadas efetuadas ao longo da partida e em que ordem
elas foram executadas.
A anlise de jogos com memria imperfeita envolve sutilezas fora do escopo deste curso.
Portanto, no que se segue estaremos sempre assumindo jogos com memria perfeita, exceto
quando mencionarmos explicitamente o contrrio.
4.3.2 Estratgias
Podemos denir de maneira anloga ao caso de jogos com informao perfeita, o que so
estratgias puras, mistas e comportamentais em jogos com informao imperfeita. A nica
diferena que as denies agora garantem que os jogadores s podem tomar a mesma
deciso em histrias que eles no conseguem distinguir.
Denio 4.3.2: Uma estratgia pura para o jogador i em um jogo em forma extensa com
informao imperfeita uma funo s
i
que associa cada conjunto de informao I
i
do jogador
i um elemento de M
I
i
, ou seja, uma ao disponvel para i quando se move no conjunto de
informao I
i
.
Autor: Leandro Chaves Rgo
4.3. JOGOS COM INFORMAO IMPERFEITA 66
Denio 4.3.3: Se C
i
o conjunto de estratgias puras para o jogador i em um jogo em
forma extensa com informao imperfeita, uma estratgia mista para o jogador i em um jogo
em forma extensa uma distribuio de probabilidade
i
em C
i
, ou seja, um elemento de
(C
i
).
Denio 4.3.4: Uma estratgia comportamental para o jogador i em um jogo em forma
extensa com informao imperfeita uma funo
i
que associa cada conjunto de informao
I
i
do jogador i um elemento de (M
I
i
), ou seja, uma distribuio de probabilidade sobre as
aes disponveis para i quando se move no conjunto de informao I
i
.
Exemplo 4.3.5: No jogo do Exemplo 4.3.1, temos que o jogador 1 possui 12 estratgias
puras: AFH,AFI,AGH,AGI,BFH,BFI,BGH,BGI,CFH,CFI,CGH,CGI. O jogador 2
possui 2 estratgias puras: D e E.
Observao 4.3.6: Eventualmente, abusaremos um pouco da notao e para todo h I,
usaremos s
i
(h) e
i
(h) para denotar as aes escolhidas pelas estratgias s
i
e
i
no conjunto
de informao I.
Equivalncia entre Estratgias Mistas e Comportamentais
Nosso objetivo nesta seo provar que para jogos extensivos com informao imperfeita
nitos onde os jogadores possuem memria perfeita, existe uma equivalncia entre estratgias
mistas e comportamentais. Antes de enunciarmos e provarmos a equivalncia, precisamos
de duas denies.
Denio 4.3.7: Denem-se duas estratgias (mistas ou comportamentais) de um dado
jogador como equivalentes em utilidade, se para qualquer coleo de estratgias puras para
os demais jogadores, as duas estratgias induzem a mesma distribuio de probabilidade
sobre as histrias terminais do jogo.
Denio 4.3.8: Para qualquer histria h, temos que uma estratgia pura s
i
para o jogador
i consistente com h, se para todo prexo h

m de h, onde P(h

) = i, temos que s
i
(h

) =
m. Intuitivamente, s
i
consistente com h se existe algum perl de estratgias puras dos
outros jogadores que juntamente com s
i
tornem possvel que a histria h seja atingida com
probabilidade positiva. No jogo do Exemplo 4.3.1, temos que a estratgia BGH do jogador
i consistente com a histria B, D, mas no consistente com a histria B, E, F nem
com a histria C, E. Seja C
i
(h) o conjunto de estratgias puras do jogador i consistentes
com a histria h.
Teorema 4.3.9: Se em um jogo em forma extensiva nito, no existe falta de memria
sobre se o jogador j realizou ou no uma dada ao, ento temos que toda estratgia com-
portamental de um jogador tem uma estratgia mista equivalente em utilidade.
Prova: Seja
i
uma estratgia comportamental para o jogador i. Considere a seguinte estra-
tgia mista
i
que d probabilidade

II
i

i
(I)(s
i
(I)) a estratgia pura s
i
. Seja t
i
um perl
Autor: Leandro Chaves Rgo
4.3. JOGOS COM INFORMAO IMPERFEITA 67
de estratgias puras para os jogadores diferentes de i. Vamos vericar que Pr
(
i
,t
i
)
(h) =
Pr
(
i
,t
i
)
(h), h H, e consequentemente
i
e
i
so equivalentes em utilidade.
Seja h uma histria qualquer do jogo. Temos que considerar dois casos. Primeiro, assuma
que j N {i} tal que t
j
/ C
j
(h). Neste caso, temos que Pr
(
i
,t
i
)
(h) = Pr
(
i
,t
i
)
(h) = 0.
Assuma ento que j N {i} temos t
j
C
j
(h). Ento, temos que:
Pr
(
i
,t
i
)
(h) = (

H
i
,
h

mX(h)

i
(h

)(m))(

H
c
,
h

mX(h)
f
c
(m|h

)),
pois ao longo da histria h as escolhas feitas pelo jogador i so independentes por denio
de e pelo fato que assumimos que no existe falta de memria se um jogador j realizou
ou no uma ao. Por outro lado, para uma estratgia pura s
i
temos que Pr
(s
i
,t
i
)
(h) = 0
se s
i
/ C
i
(h) e, em caso contrrio temos:
Pr
(s
i
,t
i
)
(h) =

H
c
,
h

mX(h)
f
c
(m|h

).
Logo, temos que
Pr
(
i
,t
i
)
(h) =

s
i
C
i
(s
i
)Pr
(s
i
,t
i
)
(h)
=

s
i
C
i
(h)

II
i

i
(I)(s
i
(I))

H
c
,
h

mX(h)
f
c
(m|h

)
=

H
c
,
h

mX(h)
f
c
(m|h

s
i
C
i
(h)

II
i

i
(I)(s
i
(I))
=

H
c
,
h

mX(h)
f
c
(m|h

s
i
C
i
(h)
(

II
i
,
X(h)I=

i
(I)(s
i
(I))

II
i
,
X(h)I=

i
(I)(s
i
(I)))
= (

H
c
,
h

mX(h)
f
c
(m|h

))(

H
i
,
h

mX(h)

i
(h

)(m)) A(h),
onde
A(h) =
_
_
_

s
i
C
i
(h)

II
i
,
X(h)I=

i
(I)(s
i
(I)) , se h / H
i

s
i
C
i
(h)

i
(h)(s
i
(h))

II
i
,
X(h)I=

i
(I)(s
i
(I)) , se h H
i
Como a nica restrio para uma estratgia pura s
i
pertencer a C
i
(h) que ela especique
uma ao que leve a histria h em qualquer prexo estrito de h onde o jogador i se move, ento
temos que essas estratgias podem especicar qualquer ao nos conjuntos de informao
para o jogador que contm h ou que no contenham prexos de estritos de h. Desta forma
Autor: Leandro Chaves Rgo
4.3. JOGOS COM INFORMAO IMPERFEITA 68
rearrumando os termos dos somatrio podemos reescrever:
A(h) =
_
_
_

II
i
,
X(h)I=

aM
I

i
(I)(a) , se h / H
i
(

aM
h

i
(h)(a))

II
i
,
X(h)I=

aM
I

i
(I)(a) , se h H
i
= 1.
Portanto,
Pr
(
i
,t
i
)
(h)
= (

H
c
,
h

mX(h)
f
c
(m|h

))(

H
i
,
h

mX(h)

i
(h

)(m))
= Pr
(
i
,t
i
)
(h)
Exemplo 4.3.10: Considere novamente o jogo do Exemplo 4.3.1. Seja
1
a estratgia
comportamental do jogador 1 que escolhe A com probabilidade 1/2, B e C com probabilidade
1/4 e G e H com probabilidade 1. De acordo com a construo do teorema a estratgia mista

1
que equivalente em utilidade a
1
tal que AGH recebe probabilidade 1/2, BGH e
CGH recebem probabilidade 1/4. Se o jogador 2 escolher a estratgia pura D, ento
Pr
(
1
,D)
= Pr
(
1
,D)
(h) =
_
_
_
1/2, se h = A
1/4, se h = B ou h = C ou h = B, D ou h = C, D
0, caso contrrio
Enquanto se o jogador 2 escolher a estratgia pura E, ento
Pr
(
1
,E)
= Pr
(
1
,E)
(h) =
_

_
1/2, se h = A
1/4, se h = B ou h = C ou h = B, E ou h = C, E
ou h = B, E, G ou h = C, E, H
0, caso contrrio
Dada uma estratgia comportamental
i
para o jogador i. A estratgia mista
i
que d
probabilidade

II
i

i
(I)(s
i
(I)) a estratgia pura s
i
chamada uma representao mista de

i
.
Para ver um exemplo da necessidade da hiptese que o jogo no pode ter falta de me-
mria se um jogador j realizou ou no uma ao para encontrarmos uma estratgia mista
equivalente considere o seguinte exemplo.
Exemplo 4.3.11:
Considere o Jogo da Figura 4.7. Suponha a estratgia comportamental que escolhe ao
a com probabilidade p (0, 1). Esta estratgia induz probabilidades p
2
, p(1 p), 1 p
nas histrias terminais a, a, a, b, b, respectivamente. Contudo qualquer estratgia mista
induz probabilidade zero na histria a, b. Portanto, no existe estratgia mista equivalente
a estratgia comportamental dada neste jogo.
Autor: Leandro Chaves Rgo
4.3. JOGOS COM INFORMAO IMPERFEITA 69
Figura 4.7: Jogo extensivo onde no existe estratgia mista equivalente.
O prximo teorema prova a recproca do teorema anterior para jogos com memria per-
feita.
Teorema 4.3.12: Para qualquer estratgia mista de um jogo extensivo nito com memria
perfeita, existe uma estratgia comportamental equivalente em utilidade.
Prova: Seja
i
uma estratgia mista para o jogador i. Para qualquer histria h, seja

i
(h) =

s
i
C
i
(h)
(s
i
),
ou seja,
i
(h) a soma das probabilidades das estratgias puras do jogador i consistentes com
a estratgia h. Dizemos que
i
consistente com h se, e somente se,
i
(h) > 0. Como o jogo
tem memria perfeita, para quaisquer histrias h e h

no mesmo conjunto de informao do


jogador i, temos que C
i
(h) = C
i
(h

) e, consequentemente,
i
(h) =
i
(h

). Alm disso, como


para qualquer estratgia pura temos que o jogador i deve escolher uma mesma ao em h
e h

, temos que C
i
(h m) = C
i
(h

m) e, consequentemente,
i
(h m) =
i
(h

m).
Vamos agora, denir uma estratgia comportamental
i
que provaremos ser equivalente em
utilidade a
i
. Seja I um conjunto de informao qualquer para o jogador i. Seja h I
tal que
i
(h) > 0, dena
i
(I)(m) =

i
(hm)

i
(h)
. Como uma estratgia pura s
i
consistente
com h se, e somente se, ela for consistente com exatamente uma histria h m, temos que

mM
I

i
(h m) =
i
(h). Portanto, temos que

mM
I

i
(I)(m) = 1. Se
i
(h) = 0, dena

i
(I) de forma arbitrria.
i
chamada de uma representao comportamental de
i
.
Seja t
i
um perl de estratgias puras para os jogadores diferentes de i. Vamos vericar
que Pr
(
i
,t
i
)
(h) = Pr
(
i
,t
i
)
(h), h H, e consequentemente
i
e
i
so equivalentes em
utilidade.
Seja h uma histria qualquer do jogo. Temos que considerar dois casos. Primeiro, assuma
que j N {i} tal que t
j
/ C
j
(h). Neste caso, temos que Pr
(
i
,t
i
)
(h) = Pr
(
i
,t
i
)
(h) = 0.
Assuma ento que j N {i} temos t
j
C
j
(h).
Como temos um jogo nito e
i
( ) = 1, para qualquer histria h tal que
i
(h) = 0
existe um ltimo prexo h

de h que consistente com a estratgia


i
. Mais formalmente, se

i
(h) = 0, ento existe h

X(h) tal que


i
(h

) > 0 e para toda histria h

X(h) X(h

),
Autor: Leandro Chaves Rgo
4.3. JOGOS COM INFORMAO IMPERFEITA 70
temos que
i
(h

) = 0. Se h

I, e h

m X(h), ento
i
(I)(m) = 0. Consequentemente,
temos que Pr
(
i
,t
i
)
(h) = 0 = Pr
(
i
,t
i
)
(h).
Finalmente, considere o caso em que
i
(h) > 0. Por denio, temos que
i
(h

) > 0, h


X(h). Note ainda que se h

o primeiro prexo de h no qual o jogador i se move, temos


que
i
(h

) = 1, e que se h

m e h

so dois prexos de h tais que o jogador i se move


em h

e h

, e no existe nenhum outro prexo de h entre h

e h

no qual i se move, ento

i
(h

m) =
i
(h

). Alm disso, se h
3
e h
4
so dois prexos de h tal que o jogador i no se
move entre h
3
e h
4
, temos que
i
(h
3
) =
i
(h
4
). Ento, temos que:
Pr
(
i
,t
i
)
(h) = (

H
i
,
h

mX(h)

i
(h

)(m))(

H
c
,
h

mX(h)
f
c
(m|h

))
= (

H
i
,
h

mX(h)

i
(h

m)

i
(h

)
)(

H
c
,
h

mX(h)
f
c
(m|h

))
=
i
(h)(

H
c
,
h

mX(h)
f
c
(m|h

))
= (

s
i
C
i
(h)
(s
i
))(

H
c
,
h

mX(h)
f
c
(m|h

))
=

s
i
C
i
(h)
(s
i
)Pr
(s
i
,t
i
)
(h) = Pr
(
i
,t
i
)
(h)
Exemplo 4.3.13: Considere novamente o jogo do Exemplo 4.3.1. Seja
1
a estratgia mista
do jogador 1 que escolhe AFH com probabilidade 1/2, BFI e BGH com probabilidade
1/4. Temos que
1
( ) = 1,
1
(A) = 1/2,
1
(B) =
1
(B, E) = 1/2,
1
(C) =
0,
1
(B, E, F) =
1
(B, E, G) = 1/4. De acordo com a construo do teorema uma
estratgia comportamental
1
que equivalente em utilidade a
1
tal que
1
( )(A) =

1
( )(B) = 1/2,
1
(B, E)(F) =
1
(B, E)(G) = 1/2 e
1
(C, E) escolhe arbitrariamente
entre H e I.
O prximo exemplo ilustra a necessidade da hiptese de memria perfeita para a exis-
tncia de uma estratgia comportamental equivalente em utilidade a uma estratgia mista
qualquer.
Exemplo 4.3.14:
Considere o Jogo da Figura 4.8. Considere a estratgia mista na qual o jogador 1 escolhe
LL com probabilidade
1
2
e RR com probabilidade
1
2
. Esta estratgia induz probabilidades
1/2, 0, 0, 1/2 nas histrias terminais L, L, L, R, R, L, R, R, respectivamente. Suponha
uma estratgia comportamental
i
tal que
i
({})(L) = p e
i
({L, R})(L) = q. Note que
esta estratgia induz probabilidade 0 a histria L, R se, e somente se, p = 0 ou q = 0. Porm
neste caso, temos que ela tambm induz probabilidade 0 a L, L ou a R, R. Portanto, no
existe estratgia comportamental equivalente a estratgia mista dada.
Autor: Leandro Chaves Rgo
4.3. JOGOS COM INFORMAO IMPERFEITA 71
Figura 4.8: Jogo extensivo onde no existe estratgia comportamental equivalente.
4.3.3 Representao em Formal Normal de um Jogo em Forma Ex-
tensa com Informao Imperfeita
Note que as denies das representaes em forma normal e normal reduzida para jogos
com informao imperfeita so idnticas a denies correspondentes para o caso de jogos
com informao perfeita, apenas levando em conta as mudanas na denio do que so
agora estratgias puras. O caso da denio da representao multiagente precisa de mais
algumas alteraes. Agora ao invs de termos um agente temporrio para cada histria em
que um dado jogador i se move no jogo com informao imperfeita, teremos um agente
temporrio para cada conjunto de informao do jogador i. Formalmente,
Denio 4.3.15: A representao multiagente de um jogo em forma extensa com infor-
mao imperfeita = (N, M, H, P, f
c
, {I
i
: i N}, {v
i
: i N}) o jogo em forma normal

n
= ({I : I
iN
I
i
}, {M
I
: I
iN
I
i
}, {u
I
: I
iN
I
i
}), onde relembrando se I I
i
,
temos que M
I
so as aes disponveis ao jogador i no conjunto de informao I. Para todo
perl de estratgias de
n
, t
J
iN
I
i
M
J
, seja s
t
um perl de estratgias de tal que
para todo j N e J I
j
temos s
t
j
(J) = t
J
. Ento, u
I
:
J
iN
I
i
M
J
IR uma funo
utilidade para um jogador I I
i
tal que u
I
(t) =

zZ
Pr
s
t (z)v
i
(z).
Novamente temos que todos os agentes temporrios de um mesmo jogador possuem a
mesma funo utilidade.
Exemplo 4.3.16: Considere novamente o jogo a seguir:
A representao multiagente tem quatro jogadores jogadores ,{B, C},B, E, e
C, E. Os jogadores , B, E, e C, E so agentes temporrios do jogador 1 do jogo
em forma extensiva, enquanto o jogador {B, C} o nico agente temporrio do jogador
2. O jogador possui trs aes disponveis A, B e C, o jogador {B, C} possui duas
aes disponveis D e E, o jogador B, E, possui duas aes disponveis F e G, e nalmente
o jogador C, E possui tambm duas aes disponveis H e I. Se escolhe B, {B, C}
escolhe E, B, E, escolhe F, e B, E, escolhe I, temos que todos os agentes temporrios
tm utilidade esperada igual a 2.
Autor: Leandro Chaves Rgo
4.3. JOGOS COM INFORMAO IMPERFEITA 72
Figura 4.9: Jogo em Forma Extensiva com Informao Imperfeita.
4.3.4 Equilbrio de Nash
Assim como no caso de jogos em forma extensiva com informao perfeita, podemos denir
trs tipos de Equilbrio de Nash, um para cada tipo de perl de estratgias:
Denio 4.3.17: Dado um jogo em forma extensa com informao imperfeita = (N, M, H, P, f
c
, {I
i
:
i N}, {v
i
: i N}), um perl de estratgias s um equilbrio de Nash em estratgias puras
de se, e somente se,
u
i
(s) =

zZ
Pr
s
(z)v
i
(z) u
i
(s
i
, d
i
) =

zZ
Pr
(s
i
,d
i
)
(z)v
i
(z)
para todo jogador i e toda estratgia d
i
C
i
.
Denio 4.3.18: Dado um jogo em forma extensa com informao imperfeita = (N, M, H, P, f
c
, {I
i
:
i N}, {v
i
: i N}), um perl de estratgias um equilbrio de Nash em estratgias mistas
de se, e somente se,
u
i
() =

sC
(s)

zZ
Pr
s
(z)v
i
(z) u
i
(
i
,
i
) =

sC

i
(s
i
)
i
(s
i
)

zZ
Pr
s
(z)v
i
(z)
para todo jogador i e toda estratgia mista
i
(C
i
).
Denio 4.3.19: Dado um jogo em forma extensa com informao imperfeita = (N, M, H, P, f
c
, {I
i
:
i N}, {v
i
: i N}), um perl de estratgias um equilbrio de Nash em estratgias
comportamentais de se, e somente se,
u
i
() =

zZ
Pr

(z)v
i
(z) u
i
(
i
,
i
) =

zZ
Pr
(
i
,
i
)
(z)v
i
(z)
para todo jogador i e toda estratgia comportamental
i

hH
i
(M
h
).
Autor: Leandro Chaves Rgo
4.3. JOGOS COM INFORMAO IMPERFEITA 73
Exerccio: Encontre os equilbrios de Nash em estratgias puras do jogo do Exem-
plo 4.3.16.
Pode-se denir equilbrio de subjogo perfeito de maneira anloga para jogos com infor-
mao imperfeita. A nica diferena na denio do que um subjogo G de um jogo com
informao imperfeita. Neste caso, temos que a denio idntica, somente com a restrio
que se I H
G
= , ento I H = I H
G
, isto todos os conjuntos de informao do subjogo
devem ser idnticos aos conjuntos de informao do jogo original. Isto, por exemplo, implica
que a histria raiz de qualquer subjogo deve pertencer a um conjunto de informao que
contm apenas uma nica histria no jogo original.
Para jogos extensivos com informao imperfeita, existe ainda um outro renamento que
evita alguns equilbrios de Nash que no so intuitivos conhecido como equilbrio sequencial.
4.3.5 Equilbrio sequencial
Equilbrio sequencial denido com respeito a uma avaliao, um par (, ) onde um
perl de estratgias comportamentais e um sistema de crenas, isto , uma funo que
determina para cada conjunto de informao I uma probabilidade
I
sobre as histrias em I.
Intuitivamente, se I um conjunto de informao para o jogador i,
I
a avaliao subjetiva
de i da verossimilhana relativa das histrias em I. Informalmente, uma avaliao um
equilbrio sequencial se para todos os jogadores i, em todos os i-conjuntos de informao, (a)
i escolhe uma melhor resposta dada as crenas que ele tem sobre as histrias neste conjunto
de informao e as estratgias dos outros jogadores, e (b) as crenas de i so consistentes
com o perl de estratgias sendo jogado, no sentido que elas so calculadas condicionando
a distribuio de probabilidade induzida pelo perl de estratgia sobre as histrias no dado
conjunto de informao.
Note que
I
denido mesmo se I atingido com probabilidade 0 de acordo com algum
perl de estratgia . Denir consistncia em um conjunto de informao que atingido
com probabilidade 0 um pouco sutil. Neste caso, intuitivamente, quando o conjunto de
informao I atingido o jogador i que se move em I deve acreditar que o jogo est sendo
jogado de acordo com um perl de estratgias alternativo. Em um equilbrio sequencial, este
perl de estratgias alternativo consiste de uma pequena perturbao da avaliao original
onde todas as aes so escolhidas com probabilidade positiva.
Dado um perl de estratgias , seja Pr

a distribuio de probabilidade induzida por


sobre as possveis histrias jogo como denido na Seo 4.2.2. Intuitivamente, Pr

(h)
o produto das probabilidades de cada uma das aes que levam a h. Por simplicidade,
assumimos que f
c
> 0, de forma que se tal que todo jogador escolhe todas as suas aes
com probabilidade positiva, ento para toda histria h, Pr

(h) > 0. Para qualquer histria


h do jogo, dena Pr

( | h) como a distribuio de probabilidade condicional induzida por


sobre as possveis histrias do jogo dado que a histria atual h. Intuitivamente, Pr

(h

| h)
igual a 0 se h no for um prexo de h

, igual a 1 se h = h

, e o produto da probabilidade
de cada uma das aes no caminho que leva h h

se h for um prexo de h

. Formalmente,
uma avaliao (, ) um equilbrio sequencial se ela satisfaz as seguintes condies:
Racionalidade sequencial. Para todo jogador i, conjunto de informao I I
i
, e toda
Autor: Leandro Chaves Rgo
4.3. JOGOS COM INFORMAO IMPERFEITA 74
estratgia comportamental para o jogador i,
EU
i
((, ) | I) EU
i
(((
i
, ), ) | I),
onde EU
i
((, ) | I) =

hI

zZ

I
(h)Pr

(z | h)u
i
(z).
Consistncia entre o sistema de crenas e o perl de estratgias. Se consiste de
estratgias comportamentais que do probabilidade positiva a todas as aes em todos
os conjuntos de informaes, ento para todo conjunto de informao I e histria h
em I,

I
(h) =
Pr

(h)

I
Pr

(h

)
.
Caso contrrio, existe uma sequncia (
n
,
n
), n = 1, 2, 3, . . ., de avaliaes tal que

n
um perl de estratgias que d probabilidade positiva a todas as aes em todos
os conjuntos de informao, (
n
,
n
) consistente no sentido do pargrafo anterior, e
lim
n
(
n
,
n
) = (, ).
Podemos agora enunciar dois importantes teoremas que justicam que esta uma noo
razovel de equilbrio.
Teorema 4.3.20: Se (, ) for um equilbrio sequencial de um jogo em forma extensiva com
memria perfeita, ento um equilbrio de Nash em estratgias comportamentais do jogo.
Prova: Suponha, por absurdo, que (, ) um equilbrio sequencial, mas no um
equilbrio de Nash. Ento existe i N e
i
uma estratgia comportamental para o jogador
i tal que
u
i
() =

zZ
Pr

(z)v
i
(z) < u
i
(
i
,
i
) =

zZ
Pr
(
i
,
i
)
(z)v
i
(z).
Escolha uma estratgia
i
tal que u
i
() < u
i
(
i
,
i
) e ||{I I
i
:
i
(I) =
i
(I)}|| ||{I
I
i
:
i
(I) =
i
(I)}|| para toda estratgia comportamental
i
tal que u
i
() < u
i
(
i
,
i
).
Seja I

um conjunto de informao para o jogador i tal que


i
(I

) =
i
(I

) e para todo
conjunto de informao I I
i
tal que I contm somente histrias que possuem prexos em
I

,
i
(I

) =
i
(I

), ou seja,
i
e
i
coincidem nas histrias que se seguem ao conjunto de
informao I

. Dena agora

i
(I) =
i
(I), I = I

, e

i
(I

) =
i
(I

). Iremos provar que


u
i
() < u
i
(
i
,

i
), e como ||{I I
i
:
i
(I) =
i
(I)}|| > ||{I I
i
:

i
(I) =
i
(I)}||, temos
uma contradio.
Denotaremos por (
i.I
,
i
(I)) o perl de estratgias comportamentais que igual a
exceto na ao do jogador i no conjunto de informao I; neste conjunto de informao I
a ao de i coincide com a ao escolhida por i em I de acordo com a estratgia
i
. Seja
ainda Z(I) o conjunto de histrias terminais que tem uma histria em I como prexo. Como

i
,
i
, e

i
coincidem em todas as histrias que se seguem ao conjunto de informao I

,
temos que EU
i
((
i
,

i
)|h) = EU
i
((
i.I
,

i
(I

))|h), h I

. Alm disso, como


i
e

i
Autor: Leandro Chaves Rgo
4.3. JOGOS COM INFORMAO IMPERFEITA 75
diferem apenas na ao escolhida em I

, temos que Pr
(
i
,

i
)
(h) = Pr
(
i
,
i
)
(h) para todo
h I

(Z Z(I

)). Portanto,
u
i
(
i
,

i
) =

hI

Pr
(
i
,

i
)
(h)EU
i
((
i
,

i
)|h) +

z(ZZ(I

))
Pr
(
i
,

i
)
(z)v
i
(z)
=

hI

Pr
(
i
,
i
)
(h)EU
i
((
i.I
,

i
(I

))|h) +

z(ZZ(I

))
Pr
(
i
,
i
)
(z)v
i
(z)
Consideremos agora dois casos. Primeiro, se

hI

Pr
(
i
,
i
)
(h) = 0, neste caso temos
ento que u
i
(
i
,

i
) = u
i
(
i
,
i
) > u
i
(). Segundo, suponha que

hI

Pr
(
i
,
i
)
(h) > 0.
Como temos um jogo com memria perfeita, para qualquer estratgia , temos que para
qualquer h I, onde I I
i
,
Pr

(h)

hI
Pr

(h)
no depende da estratgia
i
do jogador i, pois
i
contribui com o mesmo fator multiplicativo
para Pr

(h) qualquer que seja h I. Ento, como (, ) um equilbrio sequencial:


(I)(h) =
Pr

(h)

hI
Pr

(h)
=
Pr
(
i
,
i
)
(h)

hI
Pr
(
i
,
i
)
(h)
, h I.
Logo,
u
i
(
i
,

i
) = (

hI

Pr
(
i
,
i
)
(h))(

hI

(I

)(h)EU
i
((
i.I
,

i
(I

))|h)) +

z(ZZ(I

))
Pr
(
i
,
i
)
(h)v
i
(z)
Como

i
(I

) =
i
(I

) e
i
sequencialmente racional no conjunto de informao I

,
temos que

hI

(I

)(h)EU
i
(
i.I
,

i
(I

)|h)

hI

(I

)(h)EU
i
(
i.I
,
i
(I

)|h)
=

hI

(I

)(h)EU
i
(
i
,
i
|h).
Portanto,
u
i
(
i
,

i
) = (

hI

Pr
(
i
,
i
)
(h))(

hI

(I

)(h)EU
i
((
i.I
,

i
(I

))|h)) +

z(ZZ(I

))
Pr
(
i
,
i
)
(h)v
i
(z)
(

hI

Pr
(
i
,
i
)
(h))(

hI

(I

)(h)EU
i
((
i
,
i
)|h)) +

z(ZZ(I

))
Pr
(
i
,
i
)
(h)v
i
(z)
= u
i
(
i
,
i
) > u
i
(),
como queramos demonstrar.
Teorema 4.3.21: Para todo jogo nito em forma extensiva com memria perfeita, o con-
junto de avaliaes que so equilbrio sequencial no vazio.
Autor: Leandro Chaves Rgo
4.3. JOGOS COM INFORMAO IMPERFEITA 76
Figura 4.10: Jogo em Forma Extensiva com Informao Imperfeita.
Prova: Veremos adiante.
Exemplo 4.3.22: Considere mais uma vez o jogo a seguir:
Neste caso, em todos os equilbrios sequenciais temos que o jogador 1 escolhe ao F com
probabilidade 1 aps a histria B, E, escolhe ao H com probabilidade 1 aps a histria
C, E, jogador 2 escolhe ao D com probabilidade 1 no conjunto de informao {B, C},
e o jogador 1 escolhe ao B com probabilidade 0 no incio do jogo. Nos equilbrios sequenciais
em que o jogador 1 escolhe ao C com probabilidade positivo temos que o sistema de
crenas deve d probabilidade 1 a histria C. No caso em que o jogador 1 escolhe A com
probabilidade 1, qualquer sistema de crenas consistente.
Clculo de Equilbrio sequencial
Agora vamos ilustrar com um exemplo, como podemos calcular equilbrios sequenciais em
jogos nitos. O procedimento similar ao que estudamos para o clculo de equilbrio de Nash
em estratgias mistas para jogos em forma normal. Iremos por tentativa, encontrar equil-
brios sequenciais cujas estratgias comportamentais tenham determinando suporte. Faremos
isso comeando pelos conjuntos de informao mais perto dos ns terminais do jogo.
Exemplo 4.3.23: Considere o jogo a seguir:
fcil ver que (1.1)(0, 95) = 0, 95 e (1.1)(0, 05) = 0, 05. Alm disso, racionali-
dade sequencial implica que
2
(2.2)(o) = 1. Vamos ento considerar os possveis suportes
de
1
(1.2). Existem trs suportes possveis para considerar: m, n, m, n. A utilidade
esperada para o jogador 1 de escolher n no conjunto de informao 1.2 8(1.2)(0, 05, g) +
3(1(1.2)(0, 05, g)), enquanto a utilidade esperada de escolher m 4. Consistncia entre
e implica que:
(1.2)(0, 05, g) =
0, 05
1
(1.1)(g)
0, 05
1
(1.1)(g) + 0, 95
1
(1.1)(g)
2
(2.1)(h)
=
1
1 + 19
2
(2.1)(h)
.
Note que mesmo que
1
(1.1)(g) = 0, consistncia implica a mesma frmula acima.
Autor: Leandro Chaves Rgo
4.3. JOGOS COM INFORMAO IMPERFEITA 77
Figura 4.11: Calculando Equilbrios Sequenciais.
Vamos primeiro vericar se existe equilbrio sequencial no qual
1
(1.2)(n) = 1. Ento,
racionalidade sequencial implica que 8(1.2)(0, 05, g)+3(1(1.2)(0, 05, g)) 4, ou seja,
(1.2)(0, 05, g) 0, 2. Isto por sua vez, implica que
2
(2.1)(h)
4
19
. Mas se
1
(1.2)(n) = 1,
a utilidade esperada do jogador 2 de escolher h no conjunto de informao 2.1 9, enquanto
a utilidade esperada de escolher i 5. Portanto,
2
(2.1)(h) = 1, contradizendo a condio

2
(2.1)(h)
4
19
. Logo, no existe equilbrio sequencial no qual
1
(1.2)(n) = 1.
Vamos tentar vericar se existe equilbrio sequencial com
1
(1.2)(n) = 0. Ento, raci-
onalidade sequencial implica que 8(1.2)(0, 05, g) + 3(1 (1.2)(0, 05, g)) 4, ou seja,
(1.2)(0, 05, g) 0, 2. Isto por sua vez, implica que
2
(2.1)(h)
4
19
. Mas se
1
(1.2)(n) = 0,
a utilidade esperada do jogador 2 de escolher h no conjunto de informao 2.1 4, enquanto
a utilidade esperada de escolher i 5. Portanto,
2
(2.1)(h) = 0, contradizendo a condio

2
(2.1)(h)
4
19
. Logo, no existe equilbrio sequencial no qual
1
(1.2)(n) = 0.
Portanto, em qualquer equilbrio sequencial devemos ter 0 <
1
(1.2)(n) < 1. Ento,
racionalidade sequencial implica que 8(1.2)(0, 05, g) + 3(1 (1.2)(0, 05, g)) = 4, ou
seja, (1.2)(0, 05, g) = 0, 2. Isto por sua vez, implica que
2
(2.1)(h) =
4
19
. Portanto, temos
que o jogador 2 deve ser indiferente entre h e i no conjunto de informao 2.1. Mas neste caso,
temos que a utilidade esperada do jogador 2 de escolher h no conjunto de informao 2.1
9
1
(1.2)(n) + 4(1
1
(1.2)(n)), enquanto a utilidade esperada de escolher i 5. Portanto,
9
1
(1.2)(n) + 4(1
1
(1.2)(n)) = 5, ou seja,
1
(1.2)(n) = 0, 2.
Resta-nos apenas determinar a estratgia do jogador 1 no conjunto de informao 1.1.
Se ele escolher f, ele tem utilidade esperada 0, enquanto se ele escolher g, ele tem utilidade
esperada
0, 95(1(15/19) + 4(4/19)0, 8 + 3(4/19)0, 2) + 0, 05(4(0, 8) + 8(0, 2)) = 0, 25
Portanto,
1
(1.1)(g) = 1.
Observe que se tivssemos um jogo onde o jogador chance s tivesse a opo de escolher
a alternativa superior, ento no nico equilbrio sequencial do jogo, os jogadores escolheriam
f, i, m, o, com probabilidade 1. Este exemplo, serve para ilustrar o importante papel que
pequenas incertezas no jogo podem gerar no equilbrio.
Autor: Leandro Chaves Rgo
4.3. JOGOS COM INFORMAO IMPERFEITA 78
Ao longo deste captulo, vimos alguns renamentos de equilbrios de Nash para jogos
em forma extensa. No prximo captulo, analisaremos renamentos de equilbrio de Nash
tambm para jogos em forma normal.
Autor: Leandro Chaves Rgo
Captulo 5
Renamentos de Equilbrio de Nash para
Jogos em Forma Normal
5.1 Introduo
Neste captulo, estudaremos alguns exemplos de renamentos de equilbrio de Nash para
jogos em forma normal. Existem algumas propriedades que desejamos que tais renamentos
satisfaam.
O conceito de soluo deve ser satisfeito por pelo menos um perl de estratgias em
todo jogo nito.
Quando existe alguma razo para no considerar um equilbrio de Nash plausvel, o
renamento deve elimin-lo. Por exemplo, equilbrios onde jogadores escolham estra-
tgias dominadas com probabilidade positiva.
Em jogos extensivos, um equilbrio que no possa ser extendido por algum sistema de
crenas para um equilbrio seqencial deve ser eliminado. Portanto, para renamentos
de equilbrio para jogos em forma normal, o conceito de soluo deve apenas selecio-
nar equilbrios que correspondam a equilbrios seqenciais de todos os jogos de forma
extensa que possam ser representados pelo dado jogo em forma normal.
Veremos a seguir um primeiro renamento conhecido como equilbrio perfeito de mo
trmula.
5.2 Equilbrio Perfeito de Mo Trmula
Um dado perl de estratgias mistas para um jogo em forma normal nito dito ser com-
pletamente misto se toda ao do jogo escolhida com probabilidade estritamente positiva.
Denio 5.2.1: Um equilbrio perfeito de mo trmula de um jogo nito em forma normal
um perl de estratgias mistas com a propriedade que existe uma seqncia (
k
)

k=0
de
pers de estratgia completamente mistos que convergem pontualmente para de tal forma
79
5.2. EQUILBRIO PERFEITO DE MO TRMULA 80
que para todo jogador i a estratgia
i
uma melhor resposta para
k
i
para todos os valores
de k.
Como para todo jogador a utilidade esperada contnua no vetor de estratgias dos
outros jogadores, temos que
i
tambm uma melhor resposta para
i
, e portanto, todo
equilbrio perfeito de mo trmula tambm um equilbrio de Nash. O prximo exemplo
demonstra que a recproca desta armao no verdadeira.
Exemplo 5.2.2:
A B C
A 0,0 0,0 0,0
B 0,0 1,1 2,0
C 0,0 0,2 2,2
Este jogo tem trs equilbrios de Nash (A, A), (B, B), (C, C), mas apenas (B, B) um
equilbrio perfeito de mo trmula.
Note que em um equilbrio de mo trmula, a estratgia dos jogadores continua sendo
uma melhor resposta para estratgias dos demais jogadores que so pequenos desvios das
estratgias de equilbrio. Por este motivo, temos que equilbrio perfeito de mo trmula
robusto a pequenos erros que possam ser realizados pelos jogadores enquanto tentam
implementar suas estratgias de equilbrio. O prximo teorema relaciona equilbrio seqencial
com equilbrio perfeito de mo trmula da representao multiagente de um jogo em forma
extensa.
Teorema 5.2.3: Suponha que um jogo em forma extensiva nito com memria perfeita
e que um equilbrio perfeito de mo trmula da representao multiagente de em forma
normal. Ento, existe um sistema de crenas tal que (, ) um equilbrio seqencial de
.
Prova: Seja (
k
)

k=0
a seqncia de pers de estratgia completamente mistos tal que
k
converge para e para todo conjunto de informao I do jogador i,
I
uma melhor resposta
para
k
I
para todo k. Para todo h I, dena

k
(I)(h) =
Pr

k(h)

hI
Pr

k(h)
.
Como
k
completamente mista, temos que Pr

k(h) > 0, h H. Como


k
pode ser
visto como um vetor de dimenso nita cujas componentes esto entre 0 e 1, temos que
esta seqncia est denida em um espao compacto e, portanto, tem uma subseqncia
convergente. Seja
k
a subseqncia convergente de
k
e o limite de
k
. Seja ainda
k
a
subseqncia de
k
correspondente a subseqncia
k
.
Por construo, temos que (, ) consistente. Queremos provar que esta avaliao
seqencialmente racional. Lembre que para todo I I
i
, denotamos por u
I
() a utilidade
Autor: Leandro Chaves Rgo
5.2. EQUILBRIO PERFEITO DE MO TRMULA 81
esperada do agente I do jogador i. Temos que quando o agente i usa estratgia (I) em I
com as demais estratgias como especicado em
k
, u
I
dado por
u
I
(
k
I
, (I)) =

hI
Pr
(
k
I
,(I))
(h)Eu
i
((
k
I
, (I))|h) +

z(ZZ(I))
Pr
(
k
I
,(I))
(z)v
i
(z)
=

hI
Pr

k(h)Eu
i
((
k
I
, (I))|h) +

z(ZZ(I))
Pr

k(z)v
i
(z)
tendo em vista que Pr
(
k
I
,(I))
(h) = Pr

k(h), h I (Z Z(I)), pois estas probabilidades


no dependem da escolha do jogador i em I. Logo,
u
I
(
k
I
, (I)) = (

I
Pr

k(h

))(

hI

k
(I)(h)Eu
i
((
k
I
, (I))|h)) +

z(ZZ(I))
Pr

k(z)v
i
(z)
Como
k
uma subseqncia de
k
, temos que
I
uma melhor resposta para
k
I
,
e portanto maximiza tambm

hI

k
(I)(h)Eu
i
((
k
I
, (I))|h) por uma escolha de (I).
Fazendo k pela continuidade da utilidade esperada, temos que

I
argmax
(I)

hI
(I)(h)Eu
i
((
I
, (I))|h),
ou seja, (, ) seqencialmente racional.
Resta-nos provar que o conjunto de equilbrios perfeitos de mo trmula no vazio para
todo jogo nito.
Teorema 5.2.4: Para todo jogo nito em forma estratgica existe pelo menos um equilbrio
perfeito de mo trmula.
Prova: Seja = (N, {C
i
: i N}, {u
i
: i N}) qualquer jogo nito em forma normal.
Seja qualquer perl de estratgias completamente misto, por exemplo, faa
i
=
1
||C
i
||
.
Para qualquer nmero k tal que k 1, denimos uma funo
k
que associa cada perl de
estratgias misto () a um perl de estratgias completamente misto, da seguinte maneira:

k
() = (1
1
k
) +
1
k
.
Para qualquer, perl de estratgias puras c, seja u
k
i
(c) = u
i
(
k
([c])). Dena
k
= (N, {C
i
:
i N}, {u
k
i
: i N}). Note que
k
um jogo em forma normal nito, portanto possui
pelo menos um equilbrio de Nash em estratgias mistas. Seja
k
um equilbrio de Nash
de
k
. Como o jogo nito podemos escolher uma subseqncia de
k
que satisfaz as
seguintes condies: (1) para todo jogador i o mesmo conjunto de estratgias puras tm
probabilidade zero de acordo com todos os ks, e (2) a subseqncia convergente. Chamemos
esta subseqncia de
k
. Dena = lim
k

k
e
k
=
k
(
k
). Ento,
k
completamente misto
e lim
k

k
= lim
k

k
= . Alm disso, como d
i
C
i
u
k
i
(
k
i
, [d
i
]) = u
i
(
k
i
,
k
([d
i
]))
= (1
1
k
)u
i
(
k
i
, [d
i
]) +
1
k
u
i
(
k
i
,
i
),
Autor: Leandro Chaves Rgo
5.2. EQUILBRIO PERFEITO DE MO TRMULA 82
temos que argmax
d
i
C
i
u
k
i
(
k
i
, [d
i
]) = argmax
d
i
C
i
u
i
(
k
i
, [d
i
]). Portanto, para qualquer c
i

C
i
, se
c
i
/ argmax
d
i
C
i
u
k
i
(
k
i
, [d
i
]) = argmax
d
i
C
i
u
i
(
k
i
, [d
i
]),
ento
k
i
(c
i
) = 0. Logo,
i
(c
i
) = 0. Ento, temos que se c
i
/ argmax
d
i
C
i
u
i
(
k
i
, [d
i
]), ento

i
(c
i
) = 0, o que por sua vez implica que

i
argmax

i
(C
i
)
u
i
(
k
i
,
i
).
Ento, satisfaz as condies de um equilbrio perfeito de mo trmula.
Observao 5.2.5: Note que os Teoremas 5.2.3 e 5.2.4 implicam que o conjunto de equi-
lbrios seqncias de um jogo em forma extensiva nito com memria perfeita no vazio.
Existe uma outra caracterizao possvel para a denio de equilbrio perfeito de mo
trmula que baseada no conceito de equilbrio -perfeito. Um perl de estratgias misto
um -equilbrio perfeito se for completamente misto e para todo i N e todo estratgia
pura c
i
C
i
, se c
i
/ argmax
e
i
C
i
u
i
(
i
, [e
i
]), ento
i
(c
i
) < . O prximo teorema trata da
relao entre equilbrio perfeito de mo trmula e -equilbrio perfeito.
Teorema 5.2.6: um equilbrio perfeito de mo trmula de se, e somente se, existe
uma seqncia (
k
,
k
) tal que
lim
k

k
= 0, lim
k

k
= ,
e para todo k,
k
um
k
-equilbrio perfeito.
Prova: Suponha que (
k
,
k
) uma seqncia tal que
lim
k

k
= 0, lim
k

k
= ,
e para todo k,
k
um
k
-equilbrio perfeito.
Como existe apenas um nmero nito de subconjuntos de C
i
, podemos escolher uma
subseqncia
k
de
k
tal que argmax
e
i
C
i
u
i
(
k
i
, [e
i
]) = argmax
e
i
C
i
u
i
(
j
i
, [e
i
]) para todo
j, k. Para vericar que um equilbrio perfeito de mo trmula, basta vericar que se
c
i
/ argmax
e
i
C
i
u
i
(
k
i
, [e
i
]), ento
i
(c
i
) = 0. Assuma que c
i
/ argmax
e
i
C
i
u
i
(
k
i
, [e
i
])
para algum k. Por construo de (
k
), temos que c
i
/ argmax
e
i
C
i
u
i
(
k
i
, [e
i
]) para todo k.
Portanto,
k
i
(c
i
) <
k
, k. Logo,

i
(c
i
) = lim
k

k
i
(c
i
) lim
k

k
= 0.
Para a recproca, suponha agora que um equilbrio perfeito de mo trmula. Ento,
existe
k
completamente misto tal que se
i
(c
i
) > 0, ento c
i
argmax
e
i
C
i
u
i
(
k
i
, [e
i
]), k,
e lim
k

k
= . Escolha uma subseqncia
k
de
k
tal que argmax
e
i
C
i
u
i
(
k
i
, [e
i
]) =
argmax
e
i
C
i
u
i
(
j
i
, [e
i
]) para todo j, k. Suponha que c
i
/ argmax
e
i
C
i
u
i
(
k
i
, [e
i
]), ento

i
(c
i
) = 0. Como lim
k

k
= , temos que para todo j, existe N
j
tal que para todo n N
j
,

n
i
(c
i
) <
1
j
. Como argmax
e
i
C
i
u
i
(
k
i
, [e
i
]) = argmax
e
i
C
i
u
i
(
j
i
, [e
i
]) para todo j, k, segue que
se c
i
/ argmax
e
i
C
i
u
i
(
N
j
i
, [e
i
]), ento
N
j
i
(c
i
) <
1
j
, j, ou seja,
N
j
um
1
j
-equilbrio perfeito
para todo j.
Autor: Leandro Chaves Rgo
5.3. EQUILBRIO PRPRIO 83
5.3 Equilbrio Prprio
Equilbrio prprio um renamento de equilbrio perfeito de mo trmula. Como vimos no
Teorema 5.2.6, um equilbrio perfeito de mo trmula pode ser aproximado por um perl
de estratgias completamente misto, mas que satisfaz a condio que qualquer estratgia
pura que no seja uma melhor resposta escolhida com uma probabilidade arbitrariamente
pequena. Um equilbrio prprio tambm pode ser aproximado por um perl de estratgias
completamente misto, mas que satisfaz a condio de que qualquer estratgia que no for uma
melhor resposta escolhida com uma probabilidade signicativamente menor que qualquer
outra estratgia que tenha uma utilidade esperada melhor que a sua. Formalmente, diz-se
que um perl de estratgias um -equilbrio prprio se for completamente misto e para
todo i N, se para quaisquer c
i
, e
i
C
i
, se u
i
(
i
, [c
i
]) < u
i
(
i
, [e
i
]), ento
i
(c
i
)
i
(e
i
).
Denio 5.3.1: Um perl de estratgias um equilbrio proprio se existe uma seqncia
(
k
,
k
) tal que
lim
k

k
= 0, lim
k

k
= ,
e para todo k,
k
um
k
-equilbrio prprio.
fcil vericar que todo equilbrio prprio tambm um equilbrio perfeito de mo
trmula (Exerccio). O prximo teorema mostra que todo jogo nito em forma normal tem
um equilbrio prprio.
Teorema 5.3.2: Para qualquer jogo nito em forma normal, o conjunto de equilbrios pr-
prios no vazio.
Prova: Dado um jogo nito em forma normal = (N, (C
i
)
iN
, (u
i
)
iN
), para cada nmero
positivo menor que 1, seja

um jogo com o mesmo conjunto de jogadores, onde as


estratgias puras do jogador i so todas as maneiras possveis de ordenar as estratgias
de C
i
, ou seja, existem ||C
i
||! estratgias do jogador i neste jogo. A utilidade esperada u

dos pers de estratgia de

so determinadas da seguinte maneira. Aps os jogadores


escolherem suas estratgias em

, uma estratgia pura em C


i
para cada jogador escolhida
de acordo com uma distribuio de probabilidade na qual a primeira estratgia de C
i
de
acordo com a ordem escolhida por i tem a maior probabilidade e cada uma das estratgias
puras subseqentes de acordo com a ordem tem probabilidade vezes a probabilidade da
estratgia imediatamente anterior na ordem. A utilidade esperada de um jogador em

determinada pela utilidade esperada em quando as estratgias puras so selecionadas do


modo acima.
Como

nito, podemos encontrar um equilbrio de Nash deste jogo para todo . Seja

um equilbrio de Nash em estratgias mistas de

. Seja

um perl de estratgias misto


de tal que,

i
(c
i
) a probabilidade com que c
i
escolhido de acordo com o procedimento
do pargrafo anterior quando i joga

i
.
Vamos provar que

um-equilbrio prprio de . Suponha que u


i
(

i
, [c
i
]) < u
i
(

i
, [e
i
]).
Ento, dado que os jogadores diferentes de i seguem as estratgias em

i
, temos que para
quaisquer estratgias
i
e
i
de i que s diferem nas probabilidades com que c
i
e e
i
so
Autor: Leandro Chaves Rgo
5.3. EQUILBRIO PRPRIO 84
escolhidos, vale u
i
(

i
,
i
) < u
i
(

i
,
i
) se
i
(e
i
) >
i
(e
i
). Portanto, se

i
e

i
so duas es-
tratgias puras para i em

, temos que u

i
(

i
, [

i
]) < u

i
(

i
, [

i
]), se

i
e

i
diferem apenas
na posio de c
i
e e
i
na ordenao das estratgias puras, e na ordenao segundo

i
e
i
vem
antes de c
i
. Logo, como

um equilbrio de Nash de

i
s d probabilidade positiva a
ordens em que e
i
vem antes de c
i
. Portanto,

i
(c
i
) <

i
(e
i
), ou seja,

um -equilbrio
prprio de .
Como
iN
(C
i
) compacto, podemos encontrar uma subseqncia

k
que converge
para e lim
k

k
= 0. Portanto, um equilbrio prprio de .
Vamos ilustrar com um exemplo o fato que nem todo equilbrio perfeito de mo trmula
um equilbrio prprio.
Exemplo 5.3.3: Considere o jogo a seguir:
x
2
y
2
a
1
x
1
4,4 4,4
a
1
y
1
4,4 4,4
b
1
x
1
6,6 3,0
b
1
y
1
0,0 2,2
Nosso objetivo mostrar que ([a
1
x
1
], [y
2
]) um equilbrio perfeito de mo trmula deste
jogo que no equilbrio prprio. Para provar que um equilbrio perfeito de mo trmula,
considere o seguinte perl de estratgias

= ((1 )[a
1
x
1
] + 0,1[a
1
y
1
] + 0,1[b
1
x
1
] + 0,8[b
1
y
1
], [x
2
] + (1 )[y
2
]).

um

-equilbrio perfeito para qualquer <

< 1/3, pois note que u


1
(a
1
x
1
,

2
) =
u
1
(a
1
y
1
,

2
) = 4, u
1
(b
1
x
1
,

2
) = 6 + (1 )3 < 4, u
1
(b
1
y
1
,

2
) = 2(1 ) < 2. Ento, temos
que b
1
x
1
e b
1
y
1
no so melhores respostas, ento para que

seja um

-equilbrio perfeito
precisamos ter

1
(b
1
x
1
) <

1
(b
1
y
1
) <

, que satisfeito neste exemplo. Tambm note


que u
2
(

1
, x
2
) = 4(1)+4(0,1)+6(0,1) = 43 e u
2
(

1
, y
2
) = 4(1)+4(0,1)+2(0,8) =
4 2. Ento, x
2
no melhor resposta, ento precisamos ter

2
(x
2
) <

, que satisfeito
neste exemplo. Ento, ([a
1
x
1
], [y
2
]) um equilbrio perfeito de mo trmula deste jogo.
Contudo,

no um

-equilbrio prprio para nenhum

< 1. A estratgia b
1
x
1

pior para o jogador 1 que a estratgia a
1
y
1
contra a estratgia

2
, porm elas so escolhidas
com a mesma probabilidade. Na verdade, temos que b
1
x
1
melhor para o jogador 1 que
a estratgia b
1
y
1
contra qualquer estratgia
2
. Portanto, em qualquer -equilbrio prprio,
< 1, devemos ter que a probabilidade de b
1
x
1
deve ser maior que a probabilidade de
b
1
y
1
, conseqentemente, x
2
uma melhor resposta em qualquer -equilbrio prprio. Ento,

2
(x
2
) = 1 em qualquer equilbrio prprio. Portanto,
1
(b
1
x
1
) = 1 em qualquer equilbrio
prprio. Portanto, o nico equilbrio prprio deste jogo (b
1
x
1
, x
2
). Note que podemos
justicar este equilbrio com a seguinte seqncia de -equilbrios prprios:
((1 0,5
2
)[b
1
x
1
] + 0,5
2
[b
1
y
1
] + 0,5[a
1
x
1
] + 0,5[a
1
y
1
], (1 0,5)[x
2
] + 0,5[y
2
]).
Autor: Leandro Chaves Rgo
5.3. EQUILBRIO PRPRIO 85
A seguir enunciamos um teorema que prova que existe uma relao entre equilbrios
sequenciais de um jogo em forma extensiva com equilbrios prprios da representao em
forma normal do jogo em forma extensiva.
Teorema 5.3.4: Suponha que um jogo nito em forma extensiva com memria perfeita
e que um equilbrio prprio da representao em forma normal de . Ento, existe
um sistema de crenas e uma perl de estratgias comportamentais tal que (, ) um
equilbrio seqencial de e uma representao comportamental de .
Prova: Omitida. Consultar prova do Teorema 5.4 em Myerson.
Infelizmente, no existem argumentos que possam provar que jogadores racionais no
possam escolher equilbros de Nash que no so prprios, nem podemos provar que todo
equilbrio prprio deve ser considerado como uma maneira razovel de se comportar em um
jogo. A razo por que importante considerar renamentos de equilbrio de Nash baseados
em anlise de sensibilidade a pequenas probabilidades de erros, como nos renamentos de
equilbrio perfeito de mo trmula e equilbrio prprio, que estes conceitos proporcionam
uma maneira de checar se a justicativa para um determinado equilbrio no depende na
suposio de que jogadores ignoram completamente os possveis resultados do jogo que tm
probabilidade zero em equilbrio. Deste modo, podemos argumentar que testar estes (e
outros renamentos contidos na literatura) uma maneira til de formalizar parte de nossa
intuio como jogadores racionais devem se comportar em jogos.
Autor: Leandro Chaves Rgo
Captulo 6
Jogos Bayesianos
6.1 Introduo
Jogos Bayesianos so jogos nos quais, no comeo do jogo, antes dos jogadores comearem a
planejar suas aes no jogo, alguns jogadores podem j possuir alguma informao privada
sobre o jogo que os demais jogadores no sabem. Ento freqentemente, queremos analisar
situaes nas quais os jogadores atualmente tm diferentes informaes privadas que eles
possuem a um longo tempo, e no natural denir o incio do jogo como sendo algum ponto
em um distante passado antes dos jogadores lerem suas informaes privadas. Alm disso,
algumas informaes podem ser to bsicas para a identidade de um jogador (por exemplo,
sexo, lngua materna, nvel de averso ao risco) que no faz sentido discutir sobre jogadores
planejando suas aes antes de obterem estas informaes. Estas informaes privadas que
os jogadores possuem no incio do jogo antes de planejar suas aes denem os chamados
tipos dos jogadores.
6.2 Denio
Jogos Bayesianos so uma generalizao de jogos em forma normal que proporcionam uma
maneira de representar jogos onde os jogadores j comeam a planejar suas aes com infor-
maes privadas que denem diversos tipos dos jogadores.
Denio 6.2.1: Um jogo bayesiano um vetor
b
= (N, {C
i
: i N}, {T
i
: i N}, {p
i
:
i N}, {u
i
: i N}), onde
N o conjunto de jogadores;
C
i
o conjunto de aes disponveis para o jogador i;
T
i
o conjunto de possveis tipos do jogador i. Note que apesar de no incio do jogo
cada jogador saber seu tipo (pois cada sabe a sua informao privada), precisamos de
um conjunto de tipos para cada jogador para descrever a incerteza que os jogadores
tm sobre os tipos dos demais jogadores.
86
6.2. DEFINIO 87
p
i
: T
i
(T
i
), ou seja, p
i
associa cada tipo do jogador i com uma distribuio de
probabilidade sobre os tipos dos demais jogadores, descrevendo portanto a incerteza
de cada tipo do jogador i sobre os tipos dos demais jogadores. Portanto, p
i
(t
i
|t
i
)
denota a probabilidade subjetiva que o tipo t
i
do jogador i associa ao evento que t
i

o verdadeiro perl de tipos dos demais jogadores.
u
i
: C T IR, ou seja, para cada perl de estratgias c C e perl de tipos t T,
a funo u
i
especica um nmero u
i
(c, t) que representa a utilidade do jogador i se os
tipos dos jogadores forem t e eles escolherem as estratgias em c.

b
nito se, e somente se, os conjuntos N, C
i
, e T
i
para todo i N forem nitos.
Exemplo 6.2.2: Considere um jogo onde o jogador 1 o vendedor de um objeto e o jogador
2 o nico potencial comprador deste objeto. Cada jogador sabe quanto o objeto vale para si
mesmo, mas acredita que o valor do objeto para o outro jogador pode em reais ser qualquer
nmero inteiro entre 1 e 100 reais, cada um com igual probabilidade. Neste jogo cada
jogador deve simultaneamente fazer uma oferta em reais entre 0 e 100 para negociar o objeto.
Se a oferta do comprador for maior ou igual a oferta do vendedor, ento eles negociam o
objeto pelo valor que igual a mdia entre as ofertas, em caso contrrio nenhuma transao
realizada. Assuma que os jogadores maximizam o lucro esperado. Este jogo pode ser
modelado como um jogo bayesiano da seguinte maneira: N = {1, 2}, T
i
= {1, 2, . . . , 100}
para todo i, C
i
= {0, 1, . . . , 100} para todo i. As funes de probabilidade so:
p
i
(t
i
|t
i
) =
1
100
, i N, t
i
T
i
, t
i
T
i
.
As utilidades so dadas por:
u
1
(c, t) = (c
1
+ c
2
)/2 t
1
se c
2
c
1
u
2
(c, t) = t
2
(c
1
+ c
2
)/2 se c
2
c
1
u
1
(c, t) = 0 = u
2
(c, t) se c
2
< c
1
Dizemos que as crenas dos jogadores descritas pelas funes p
i
em um jogo bayesiano
so consistentes com uma distribuio a priori se, e somente se, existe alguma distribuio
a priori comum sobre o conjunto de pers de tipos T =
iN
T
i
tal que a crena de cada
jogador dado o seu tipo apenas a distribuio condicional de probabilidade que pode ser
computada de acordo com a frmula de Bayes. Por exemplo, no caso nito, crenas so
consistentes se, e somente se, existe alguma distribuio de probabilidade P (T) tal que
p
i
(t
i
|t
i
) =
P(t)

s
i
T
i
P(s
i
, t
i
)
, t T, i N.
Autor: Leandro Chaves Rgo
6.2. DEFINIO 88
Note que no Exemplo 6.2.2, as crenas so consistentes com a distribuio a priori
P(t) =
1
10000
, t T.
A maioria jogos da literatura em jogos bayesianos assume que crenas so consistentes
com uma distribuio a priori. Esta tendncia se deve ao fato que tais modelos de jogos
so mais simples. Note que quando denimos jogos em forma extensiva tambm assumimos
que todos os jogadores descrevem as aes do jogador chance com a mesma distribuio de
probabilidade, porm fcil generalizar esta denio retirando esta suposio. Note que
possvel se imaginar jogos com crenas inconsistentes com uma distribuio a priori. Por
exemplo, em um jogo esportivo, se for conhecimento comum entre os tcnicos que cada um
acredita que seu prprio time tem probabilidade 2/3 de vitria no prximo jogo entre os
times, ento estas crenas no podem ser consistentes com uma distribuio a priori. Se
as crenas forem consistentes, pode acontecer que cada tcnico acredite que seu time tenha
probabilidade 2/3 de vitria, mas esta diferena entre as crenas no pode ser conhecimento
comum entre os tcnicos. No prximo captulo quando estudarmos formalmente conheci-
mento e conhecimento comum provaremos este resultado.
6.2.1 Estratgias
Quando analisamos jogos bayesianos, assumimos que cada jogador i sabe a estrutura inteira
do jogo e seu tipo e que este fato conhecimento comum entre todos jogadores. Portanto,
uma estratgia para o jogador i deve no s especicar uma ao para o seu verdadeiro tipo,
mas tambm uma ao para todos os demais tipos, pois os demais jogadores ao escolherem
suas aes levam em considerao as aes escolhidas por esses outros tipos. Logo, uma
estratgia pura para o jogador i em um jogo bayesiano uma funo que associa a cada tipo
do jogador i uma ao em C
i
. Uma estratgia mista para o jogador i em um jogo bayesiano
uma funo que associa a cada tipo do jogador i uma distribuio de probabilidade em C
i
.
6.2.2 Representao em Forma Normal
Podemos representar qualquer jogo bayesiano por um jogo em forma normal. Esta represen-
tao conhecida como representao tipo-agente. Nesta representao existe um jogador
para cada tipo de jogador do jogo bayesiano. Formalmente, assumindo sem perda de gene-
ralidade que T
i
T
j
= se i = j, dada um jogo bayesiano
b
, o conjunto de jogadores da
representao tipo-agente igual a T

=
iN
T
i
. Para cada t
i
T
i
, o conjunto de aes
disponveis para este jogador na representao tipo agente D
t
= C
i
. Finalmente, na re-
presentao tipo agente, a utilidade para qualquer jogador t T
i
denida como sendo
igual a utilidade esperada condicional para o jogador i em
b
quando t
i
o verdadeiro tipo.
Portanto, para todo i N e t
i
T
i
, a funo utilidade v
t
i
:
sT
D
s
IR na representao
tipo agente de forma que para todo perl de estratgias d
sT
D
s
,
v
t
i
(d) =

t
i
T
i
p
i
(t
i
|t
i
)u
i
(d
t
, t).
Autor: Leandro Chaves Rgo
6.2. DEFINIO 89
Exemplo 6.2.3: A representao tipo-agente do jogo do Exemplo 6.2.2 dada por: T

=
{i.t : i {1, 2}, t {1, 2, . . . , 100}}, D
i.t
= {0, 1, . . . , 100},
v
1.t
(d) =
1
100
100

s=1
u
1
((d
1.t
, d
2.s
), (t, s)),
e
v
2.t
(d) =
1
100
100

s=1
u
2
((d
1.s
, d
2.t
), (s, t)).
6.2.3 Equilbrio Bayesiano
Para um jogo bayesiano, dene-se um equilbrio Bayesiano como sendo um equilbrio de Nash
da representao tipo-agente do jogo bayesiano em forma normal. Portanto, um equilbrio
bayesiano especica uma ao pura ou uma distribuio de probabilidades sobre as aes
para cada tipo de cada jogador de forma que cada um desses tipos maximiza sua utilidade
esperada quando ele sabe o seu tipo mas no sabe o tipo dos demais jogadores. Note que
em um equilbrio bayesiano, a estratgia de um jogador depende apenas do seu tipo mas no
dos tipos dos outros jogadores. Conforme explicamos, uma estratgia deve especicar uma
ao para cada tipo de jogador no apenas para o verdadeiro tipo, pois caso contrrio no
poderamos determinar a utilidade esperada dos outros jogadores que no sabem qual o
verdadeiro tipo dos demais.
Formalmente, um equilbrio bayesiano em estratgias mistas de um jogo bayesiano
b

qualquer perl de estratgias


iN

t
i
T
i
(C
i
) tal que para todo i N e t
i
T
i
,

i
(|t
i
) argmax

i
(C
i
)

t
i
T
i
p
i
(t
i
|t
i
)

cC
(

jN{i}

j
(c
j
|t
j
))
i
(c
i
)u
i
(c, t),
onde
j
(c
j
|t
j
) a probabilidade com que o tipo t
j
do jogador j escolhe ao c
j
.
Exemplo 6.2.4: Considere um jogo bayesiano com dois jogadores, suponha que C
1
=
{x
1
, y
1
}, C
2
= {x
2
, y
2
}, T
1
= {1}, T
2
= {2.1, 2.2}, p
1
(2.1|1) = 0,6, e as utilidades so
dadas nas tabelas a seguir:
Para o tipo 2.1:
x
2
y
2
x
1
1,2 0,1
y
1
0,4 1,3
Para o tipo 2.2:
x
2
y
2
x
1
1,3 0,4
y
1
0,1 1,2
Autor: Leandro Chaves Rgo
6.2. DEFINIO 90
Neste jogo, y
2
uma estratgia fortemente dominada para o tipo 2.1 e x
2
fortemente
dominada para o tipo 2.2, ento 2.1 deve escolher x
2
e 2.2 deve escolher y
2
. Portanto, para o
tipo 1, temos que a utilidade esperada de x
1
0,6 e a utilidade esperada de y
1
0,4. Portanto,
o nico equilbrio bayesiano deste jogo :
1
(x
1
|1) = 1,
2
(x
2
|2.1) = 1, e
2
(y
2
|2.2) = 1.
Exemplo 6.2.5: Considere o seguinte jogo Bayesiano no qual o jogador 1 pode ter tipo
ou , onde segundo o nico tipo do jogador 2, jogador 1 do tipo com probabilidade 0,9.
As utilidades dos jogadores so dadas de acordo com o as tabelas a seguir:
Para o tipo :
x
2
y
2
x
1
2,2 -2,0
y
1
0,-2 0,0
Para o tipo :
x
2
y
2
x
1
0,2 1,0
y
1
1,-2 2,0
Note que existem trs equilbrios Bayesianos neste jogo: (1)
2
(x
2
) = 1,
1
(x
1
|) = 1, e

1
(y
1
|) = 1; (2)
2
(y
2
) = 1,
1
(y
1
|) = 1, e
1
(y
1
|) = 1; e (3)
2
(x
2
) = 1/2,
1
(x
1
|) =
5/9, e
1
(y
1
|) = 1.
Exemplo 6.2.6: Suponha que duas pessoas esto envolvidas em uma disputa. Pessoa 1 no
sabe se a pessoa 2 forte ou fraca; ela associa probabilidade a pessoa 2 ser forte. Pessoa 2
est perfeitamente informada. Cada pessoa pode lutar ou se entregar. Cada pessoa recebe
uma utilidade 0 se ela se entregar no importa o que a outra pessoa faa. Alm disso, cada
pessoa recebe uma utilidade 1 se ela lutar e seu adversrio se entregar. Se ambas pessoas
lutarem, ento suas utilidades so (1; 1) se a pessoa 2 for forte e (1; 1) se a pessoa 2 for
fraca. Formule esta situao como um jogo Bayesiano e encontre os equilbrios bayesianos
se <
1
2
e se >
1
2
.
Soluo: O jogo Bayesiano : N = {1, 2}; C
i
= {L, E}, i N; T
1
= {1}; T
2
= {Ft, Fr};
p(Ft|1) = ; e as utilidades so dadas por:
se o jogador 2 for forte:
L E
L -1,1 1,0
E 0,1 0,0
se o jogador 2 for fraco:
L E
L 1,-1 1,0
E 0,1 0,0
Autor: Leandro Chaves Rgo
6.2. DEFINIO 91
Seja
1
(L),
2
(L|Ft), e
2
(L|Fr) o perl de estratgias misto. Ento, a utilidade esperada
do jogador 2 forte de lutar 1, e de se entregar 0. Logo, este tipo do jogador 2 sempre
luta, isto em qualquer equilbrio Bayesiano
2
(L|Ft) = 1. A utilidade esperada do jogador
2 fraco de lutar

1
(L) + (1
1
(L)),
e de se entregar 0. Portanto, ele ir lutar se
1
(L) <
1
2
; se entregar se
1
(L) >
1
2
; e
indiferente se
1
(L) =
1
2
. A utilidade esperada do jogador 1 de lutar
[
2
(L|Ft) (1) + (1
2
(L|Ft))] + (1 ) = 1 2
2
(L|Ft),
e de se entregar 0. Portanto, ele ir lutar se
2
(L|Ft) <
1
2
; se entregar se
2
(L|Ft) >
1
2
;
e est indiferente se
2
(L|Ft) =
1
2
. Como j vimos que em todo equilbrio Bayesiano

2
(L|Ft) = 1, ento o jogador 1 ir lutar se <
1
2
, e se entregar se >
1
2
. Logo, se <
1
2
;
ento o nico equilbrio bayesiano dado por
1
(L) = 1;
2
(L|Ft) = 1; e
2
(L|Fr) = 0.
Se >
1
2
; ento o nico equilbrio bayesiano dado por
1
(L) = 0;
2
(L|Ft) = 1; e

2
(L|Fr) = 1.
Em um problema de deciso ter mais informao nunca prejudicial, pois o tomador
de deciso pode sempre ignorar a informao recebida. Em um jogo, is to nem sempre
verdade. Se um jogador possui mais informao e os outros jogadores souberem disso, ento
o jogador pode estar numa situao pior como mostra o seguinte exemplo.
Exemplo 6.2.7: Considere que ambos jogadores consideram igualmente provveis que esto
participando dos seguintes jogos, onde 0 < <
1
2
:
L M R
T 1,2 1,0 1,3
B 2,2 0,0 0,3
ou
L M R
T 1,2 1,3 1,0
B 2,2 0,3 0,0
Ento, a estratgia L estritamente dominante para o jogador 2, pois se 1 escolher T, L
ter uma utilidade esperada de 2 enquanto M e R tero utilidade esperada
3
2
, e se 1 escolher
B, L ter utilidade esperada 2, enquanto M e R tero utilidade esperada
3
2
. Sabendo disto,
1 ento escolher B e no nico equilbrio de Nash, teremos que ambos jogadores recebem 2.
Suponha agora que o jogador 2, antes do jogo recebe um sinal indicando qual o ver-
dadeiro jogo. Neste caso, a estratgia R estritamente dominante para o tipo do jogador 2
que acredita que o jogo o primeiro, enquanto que a estratgia M estritamente dominante
para o tipo do jogador 2 que acredita que o jogo o segundo. Sabendo disto, o jogador 1,
escolher T. Ento, neste equilbrio o jogador 1 recebe 1 enquanto o jogador 2 recebe 3 < 2.
Ento, ambos os jogadores saem perdendo com a informao extra adquirida pelo jogador
2.
Autor: Leandro Chaves Rgo
Captulo 7
Conhecimento e Conhecimento Comum
7.1 Introduo
Neste captulo descrevemos um modelo para conhecimento e usamos este modelo para for-
malizar a idia do que conhecimento comum. Utilizaremos este modelo para expressar
formalmente as suposies sobre o conhecimento dos jogadores que esto por trs dos con-
ceitos de equilbrio de Nash e racionalizabilidade.
7.2 Um Modelo para Conhecimento
Quando analisamos jogos, estamos interessados no s no conhecimento dos jogadores sobre
as regras do jogo, mas tambm no conhecimento dos jogadores sobre os conhecimentos dos
demais. Vamos iniciar introduzindo um modelo para conhecimento de um nico agente.
A base deste modelo um conjunto de estados . Os estados podem ser interpretados
como uma descrio de todos os fatos relevantes para o problema de deciso sendo conside-
rado. Uma maneira de denir o conhecimento do agente sobre o verdadeiro estado denir
uma funo de informao K que associa cada estado w com um conjunto no vazio
K(w) de . A interpretao que quando o verdadeiro estado da natureza w o agente
apenas sabe que o verdadeiro estado est em K(w), portanto excluindo os estados fora de
K(w).
Quando utilizamos uma funo de informao para modelar o conhecimento de um agente
freqentemente assume-se que o par (, K) satisfaz as seguintes condies:
P1. w K(w), w .
P2. Se w

K(w), ento K(w

) K(w).
P3. Se w

K(w), ento K(w) K(w

).
P1 arma que o agente nunca exclui o verdadeiro estado do conjunto de estados que ele
considera possvel. P2 e P3 armam que o agente capaz de realizar introspeco para checar
inconsistncias entre os estados e suas informaes para inferir sobre o verdadeiro estado.
92
7.2. UM MODELO PARA CONHECIMENTO 93
Isto , se w

K(w) e w

K(w

), ento como quando o verdadeiro estado w o agente


considera w

possvel, e quando o verdadeiro estado w

ele considera w

possvel, ento
quando o verdadeiro estado w, ele tambm deve considerar w

possvel, caso contrrio


ele conseguiria distinguir entre w e w

. Portanto, w

K(w). Alm disso, se w

K(w)
e w

/ K(w

), ento como o agente no consegue distinguir entre w e w

, e quando w


o verdadeiro estado w

no considerado possvel pelo agente, temos que w

tambm no
deve ser considerado possvel pelo agente quando w for o verdadeiro estado da natureza.
Denio 7.2.1: Uma funo de informao K para um conjunto particional se existe
uma partio de tal que para todo w , o conjunto K(w) o elemento da partio que
contm w.
O prximo lema d uma caracterizao alternativa para uma funo de informao par-
ticional.
Lema 7.2.2: Uma funo de informao particional se, e somente se, ela satisfaz P1, P2,
e P3.
Prova: Se K for particional ela claramente satisfaz P1, P2, e P3. Agora suponha que K
satisfaz P1, P2, e P3. Se w

K(w) K(w

), ento por P2 e P3, temos que K(w) = K(w

) =
K(w

). P1 por sua vez implica que


w
K(w) = . Portanto, K particional.
Exemplo 7.2.3: Seja = [0, 1) e assuma que o agente observa apenas os primeiros quatro
dgitos da expanso decimal do nmero. Ento, para todo w o conjunto K(w) o
conjunto de todos os estados w

que possuem os mesmos quatro primeiros dgitos da


expanso decimal de w. Note que esta funo de informao particional.
Um evento qualquer subconjunto de . Dizemos que um evento ocorre se o verdadeiro
estado pertence a este evento. Ento, dada uma funo de informao, se K(w) E, ento
o evento E ocorre em todos os estados que o agente considera possvel quando o verdadeiro
estado w. Dizemos que o agente sabe o evento E no estado w. Podemos ento denir uma
funo de conhecimento K por
K(E) = {w : K(w) E},
ou seja, K(E) o conjunto de todos os estados nos quais o agente sabe E. Qualquer funo
de conhecimento satisfaz as trs propriedades a seguir:
K1 K() = . Portanto, em todos os estados o agente sabe que ocorre.
K2 Se E F, ento K(E) K(F). Portanto, se E implica F, e o agente sabe que E
ocorre ento ele sabe que F ocorre.
K3 K(E) K(F) = K(E F). Portanto, o agente sabe E e sabe F se, e somente se, ele
sabe E F.
Autor: Leandro Chaves Rgo
7.2. UM MODELO PARA CONHECIMENTO 94
Se K satisfaz P1, ento a funo de conhecimento associada satisfaz a seguinte proprie-
dade:
K4 (Axioma do Conhecimento.) K(E) E. Portanto, o agente no pode saber algum
evento que seja falso.
1
Prova: Se w K(E), ento K(w) E. Como P1 implica que
w K(w), temos que w E.
Se K satisfaz P2, ento a funo de conhecimento associada satisfaz a seguinte proprie-
dade:
K5 (Axioma da Transparncia.) K(E) K(K(E)). Portanto, se o agente sabe E, ele
sabe que ele sabe E. Este axioma tambm conhecido como axioma da introspeco
positiva. Prova: Se w K(E), ento K(w) E. Como P2 implica que para todo
w

K(w), temos K(w

) K(w). Ento, para todo w

K(w), temos que K(w

) E.
Portanto, K(E) K(w), ou seja, w K(K(E)).
Finalmente, se K satisfaz P3, ento a funo de conhecimento associada satisfaz a seguinte
propriedade:
K6 (Axioma da Sabedoria.) K(E) K( K(E)). Portanto, se o agente no sabe
E, ele sabe que ele no sabe E. Este axioma tambm conhecido como axioma da
introspeco negativa. Prova: Se w / K(E), ento K(w) E. Como P3 implica
que para todo w

K(w), temos K(w) K(w

). Ento, para todo w

K(w), temos
que K(w

) E. Portanto, K(E) K(w) = , ou seja, K(w) K(E). Portanto,


w K( K(E)).
O prximo exemplo ilustra alguns desses conceitos que apresentamos.
Exemplo 7.2.4: Suponha que n agentes perfeitamente racionais esto sentados ao redor de
uma mesa. Todos esto usando um chapu que ou branco ou preto. Todos os agentes
s podem ver o chapu dos outros agentes. Suponha que um observador anuncia: Cada
um de vocs est usando um chapu que ou branco ou preto; pelo menos um branco.
Vou contar devagar e aps cada nmero, voc tem a oportunidade de levantar a mo quando
souber a cor do seu chapu. Qual o primeiro instante em que um agente levantar sua mo?
Note que, aps o anncio do observador, temos 2
n
1 possveis estados que descrevem
todas as combinaes de cores pretas e brancas para os n chapis dos agentes, exceto o caso
em que todos seriam pretos. Ou seja,
= {w {B, P}
n
: |{i : w
i
= B}| 1},
onde w
i
representa a cor do chapu do i-simo agente. Inicialmente, temos que a funo de
informao do i-simo agente dada por: K
1
i
(w) = {(w
i
, B), (w
i
, P)} se w
i
= {P}
n1
,
1
Esta propriedade que diferencia conhecimento de crena. Apesar de um agente no poder saber algo
que seja falso, ele pode acreditar em algo que seja falso.
Autor: Leandro Chaves Rgo
7.3. CONHECIMENTO COMUM 95
e K
i
(w) = {w} se w
i
= {P}
n1
. Note que {w : w
i
= B} o evento o chapu do i-simo
agente branco, ento o evento o i-simo agente sabe a cor do seu chapu :
E
i
= {w : K
i
(w) {w : w
i
= B} ou K
i
(w) {w : w
i
= P}}.
Quando K
i
= K
1
i
para todo i, note que apenas nos estados w em que somente um agente
i tem chapu branco temos w E
j
para algum j. Neste caso, temos que w E
i
, de modo
que apenas i levanta sua mo quando o observador conta 1.
Seja F
1
= {w : |{i : w
i
= B}| = 1}, o conjunto de estados nos quais algum levanta a
mo na primeira rodada. Se ningum levanta sua mo, ento os agentes reconhecem uma
nova informao que w / F
1
. Portanto, para todo i e w / F
1
, temos que K
i
(w) = K
2
i
(w) =
K
1
i
(w) F
1
. Agora note que apenas nos estados w em que somente dois agentes i e h tm
chapu branco, temos que w E
j
para algum j. Neste caso, temos que w E
i
E
h
, de
modo que apenas i e h levantam a mo quando o observador conta 2.
Seja F
2
= {w : |{i : w
i
= B}| = 2}, o conjunto de estados nos quais algum levanta a
mo pela primeira vez na segunda rodada. Se ningum levanta a mo at a segunda rodada,
ento os agentes reconhecem que w / F
1
F
2
, e o processo continua com K
i
(w) = K
3
i
(w) =
K
2
i
(w) F
2
, para todo i e w / F
1
F
2
. fcil ver que se k chapis so brancos, ento
ningum levanta a mo at o observador contar k, perodo no qual todos os agentes que tm
chapu branco levantam a mo.
7.3 Conhecimento Comum
Suponha que no Exemplo 7.2.4 os agentes soubessem que todos tinham chapu branco ou
preto, que pelo menos um indivduo tinha chapu branco, e que todos os outros agentes
soubessem deste fato. Ento, se nenhum observador zesse nenhum anncio, mas apenas a
contagem e aguardasse algum levantar a mo, se pelo menos trs indivduos tivessem chapu
branco ento ningum nunca levantaria a mo. Mas se o observador apenas anunciou o que
os agentes j sabiam, o que mudou nas duas situaes? O que mudou foi que o observador
tornou conhecimento comum entre os agentes que pelo menos um chapu branco. Aps o
anncio os agentes alm de saberem que tinha pelo menos um chapu branco e que todos
os agentes sabiam disso, eles passaram a saber que os outros sabem que eles sabem que
tem pelo menos um chapu branco, e assim por diante em todos os nveis de iterao de
conhecimento. Isto ilustra a importncia de nveis iterados de conhecimento dos agentes.
Formalmente, dizemos que um evento de conhecimento mtuo em um grupo de agen-
tes se todo agente neste grupo sabe o evento. Por outro lado, um evento conhecimento
comum em um grupo de agentes se alm do evento ser conhecimento mtuo entre os agen-
tes do grupo, todos os agentes sabem que os outros agentes sabem do evento, e todos
sabem que todos sabem que todos sabem do evento, e assim por diante. Por simplici-
dade, vamos nos restringir ao caso de 2 agentes. Neste caso, se K
1
e K
2
so as funes
de conhecimentos dos agentes, um evento E por denio conhecimento comum entre
1 e 2 em um estado w se w pertence a todos os eventos na seguinte seqncia innita:
K
1
(E), K
2
(E), K
1
(K
2
(E)), K
2
(K
1
(E)), K
1
(K
2
(K
1
(E))), . . .
Autor: Leandro Chaves Rgo
7.3. CONHECIMENTO COMUM 96
Se K
1
e K
2
so as funes de informao dos agentes 1 e 2, um evento F auto-evidente
entre 1 e 2 se para todo w F, temos K
i
(w) F para 1 e 2. Portanto, se um evento
auto-evidente entre 1 e 2 verdadeiro, ele conhecimento mtuo entre os agentes 1 e 2. O
prximo lema estabelece algumas caracterizaes equivalentes para eventos auto-evidentes.
Lema 7.3.1: Sejam K
1
e K
2
funes de informao particionais, sejam K
1
e K
2
as funes
de conhecimento associadas, e E um evento qualquer. Ento as seguintes condies so
equivalentes:
(a) K
i
(E) = E para i = 1, 2.
(b) E auto-evidente entre 1 e 2.
(c) E igual uma unio de membros da partio induzida por K
i
, para i = 1, 2.
Prova: Assuma que (a) verdadeiro. Ento, para todo w E, temos K
i
(w) E para
i = 1, 2, portanto (b) verdadeiro. Assuma agora que vale (b). Ento, E =
wE
K
i
(w)
(recorde que w K
i
(w)) para i = 1, 2, portanto vale (c). Finalmente, se vale (c), temos que
para todo w E, K
i
(w) E, ou seja, w K
i
(E). Por outro lado, como K
i
particional,
temos que K
i
(E) E. Logo, vale (a).
Podemos agora utilizar o Lema 7.3.1 para dar uma nova caracterizao para conhecimento
comum em termos de eventos auto-evidentes.
Teorema 7.3.2: Seja um conjunto de estados nito, sejam K
1
e K
2
funes de informao
particionais, e sejam K
1
e K
2
as funes de conhecimento associadas. Ento um evento E
conhecimento comum entre 1 e 2 no estado w se, e somente se, existir um evento auto-
evidente F entre 1 e 2, tal que w F E.
Prova: Assuma que o evento E conhecimento comum entre 1 e 2 no estado w. Pelo axioma
K4, temos que para cada i {1, 2} e j = i, E K
i
(E) K
j
(K
i
(E)) K
i
(K
j
(K
i
(E)))
. Como E conhecimento comum em w, temos que w pertence a todos os eventos
na seqncia anterior, logo todos eles so no vazios. Como nito, existe um evento
F
i
= K
i
(K
j
(K
i
K
i
(E) )) para o qual K
j
(F
i
) = F
i
. Por K4 e K5, temos que K
i
(F
i
) = F
i
.
Ento, pelo Lema 7.3.1, temos que F
i
auto-evidente entre 1 e 2. Alm disso temos que
w F
i
E.
Para a recproca, assuma que exista um evento auto-evidente F entre 1 e 2 e um estado
w, tal que w F E. Como F auto-evidente, pelo Lema 7.3.1, temos que todos os
eventos do tipo K
i
(K
j
(K
i
K
i
(F) )) so iguais a F. Como w F, segue de K2 que w
membro de todos os eventos do tipo K
i
(K
j
(K
i
K
i
(E) )). Portanto, E conhecimento
comum entre 1 e 2.
Exemplo 7.3.3: Seja = {w
1
, w
2
, . . . , w
6
}, K
1
e K
2
funes de informao particionais, e
sejam K
1
e K
2
as funes de conhecimento associadas. Sejam as parties induzidas por K
1
e K
2
dadas por:
K
1
= {{w
1
, w
2
}, {w
3
, w
4
, w
5
}, {w
6
}}
K
2
= {{w
1
}, {w
2
, w
3
, w
4
}, {w
5
}, {w
6
}}
Autor: Leandro Chaves Rgo
7.4. IMPOSSIBILIDADE DE CONCORDAR EM DISCORDAR 97
O evento E = {w
1
, w
2
, w
3
, w
4
} no contm nenhum evento no vazio que seja auto-
evidente entre 1 e 2, portanto, E no conhecimento comum em nenhum estado. O evento
F = {w
1
, w
2
, w
3
, w
4
, w
5
} auto-evidente entre 1 e 2, portanto conhecimento comum entre
1 e 2 em qualquer estado em F.
7.4 Impossibilidade de Concordar em Discordar
Nesta seo provaremos que se as funes de informao de agentes so particionais, no
possvel que seja conhecimento comum entre dois agentes que tm uma probabilidade a
priori comum sobre os estados que o agente 1 associa probabilidade
1
a um evento e que
o agente 2 associa probabilidade
2
=
1
ao mesmo evento. Isto , impossvel que seja
conhecimento comum entre agentes com a mesma distribuio a priori que eles discordam da
distribuio a posteriori de um mesmo evento. Portanto, se queremos modelar uma situao
em que conhecimento comum que existe diferena na distribuio a posteriori de eventos,
no podemos assumir que existe uma distribuio a priori comum entre os agentes, como,
por exemplo, freqentemente assume-se em jogos bayesianos.
Seja uma medida de probabilidade no conjunto de estados , interpretada como a
probabilidade a priori comum entre os agentes, e seja K
1
e K
2
as funes de informao dos
agentes. Se E um evento e (E|K
i
(w)) =
i
, onde (E|K
i
(w)) a probabilidade do evento
E condicionada em K
i
(w), ento no estado w o agente i associa probabilidade
i
ao evento
E. Logo, o evento agente i associa probabilidade
i
ao evento E {w : (E|K
i
(w)) =
i
}.
Teorema 7.4.1: Suponha que o conjunto de estados nito e que os agentes 1 e 2 tm
a mesma probabilidade a priori. Se as funes de informao dos agentes so particionais
e conhecimento comum entre 1 e 2 em algum estado w

que o agente 1 associa


probabilidade
1
a algum evento E e o agente 2 associa probabilidade
2
a algum evento E,
ento
1
=
2
.
Prova: Se as hipteses so satisfeitas, ento existe um evento auto-evidente F tal que
w

F e F um subconjunto de
2
i=1
{w : (E|K
i
(w)) =
i
}, onde a probabilidade a
priori comum e K
i
a funo de probabilidade do agente i. Pelo Lema 7.3.1, F a unio de
membros da partio induzida pela funo de informao do agente i para i = 1, 2. Como
nito, o nmero de membros das parties so nitos. Ento F =
n
k=1
A
k
, onde A
k

membro da partio induzida por K
1
e F =
m
k=1
B
k
, onde B
k
membro da partio induzida
por K
2
. Como para todo k, (E|A
k
) =
1
, segue que (E|F) =
1
. Similarmente, obtemos
(E|F) =
2
. Logo,
1
=
2
.
Autor: Leandro Chaves Rgo
Captulo 8
Jogos Repetidos
8.1 Introduo
Agentes podem se comportar de maneira diferente em relao a outros agentes com os quais
eles esperam interagir novamente em comparao a outros agentes com os quais eles esperam
nunca mais interagir. Para entender como o comportamento racional e inteligente pode ser
afetado pela estrutura de futuras interaes entre os agentes, estudam-se jogos repetidos.
Em geral, temos duas classes de modelos para jogos repetidos: o horizonte pode ser nito
ou innito. Veremos que os resultados podem ser diferentes quando analisamos um ou outro
tipo de modelo. Um modelo com um horizonte innito apropriado se aps cada perodo de
interao os agentes acreditam que o jogo continuar, enquanto um modelo com horizonte
nito apropriado se os agentes claramente percebem um perodo nal de interao para o
jogo.
8.2 Jogos Repetidos Innitas Vezes
O modelo para jogos repetidos innitas vezes captura uma situao na qual agentes interagem
repetidas vezes em um jogo em forma normal G. Assumiremos que G = (N, (A
i
)
iN
, (u
i
)
iN
),
onde A
i
compacto e u
i
uma funo contnua e limitada em A =
jN
A
j
.
Denio 8.2.1: A repetio innita de um jogo G um jogo em forma extensiva com
informao perfeita e movimentos simultneos (N, H, P, (u

i
)
iN
), onde
H = {} (

t=1
A
t
) A

, onde a histria inicial e A

o conjunto de todas as
seqncias innitas (a
t
)

t=1
de pers de estratgias de G.
P(h) = N para toda histria no terminal, de forma que todos os jogadores se movem
aps cada repetio do jogo G.
u

i
uma funo utilidade em A

que estende a funo utilidade u


i
no sentido que ela
satisfaz a seguinte condio de separabilidade fraca: se (a
t
) A

, a A, a

A, e
u
i
(a) u
i
(a

), ento
u

i
(a
1
, . . . , a
t1
, a, a
t+1
, . . .) u

i
(a
1
, . . . , a
t1
, a

, a
t+1
, . . .),
98
8.2. JOGOS REPETIDOS INFINITAS VEZES 99
para todos os valores de t.
Uma histria terminal se, e somente se, ela for innita. Aps qualquer histria no
terminal, cada jogador escolhe uma ao em A
i
. Portanto, uma estratgia para o jogador i
uma funo que associa uma ao em A
i
para cada seqncia nita de pers de estratgias
de G.
Podemos impor outras condies nas funes utilidades dos agentes alm da separabili-
dade fraca. Primeiro, podemos assumir que a funo utilidade u

i
do jogo repetido baseada
somente na funo utilidade do jogo G, isto , assumimos que se u

i
((a
t
)

t=1
) u

i
((b
t
)

t=1
)
depende apenas da relao entre as correspondentes seqncia de utilidades u
i
(a
t
) e u
i
(b
t
)
de G. Consideraremos trs possveis condies na forma da funo utilidade, a primeira
denida a seguir:
Denio 8.2.2: Desconto. Existe algum nmero (0, 1), chamado de fator de desconto,
tal que a seqncia de nmeros reais v
t
i
pelo menos to boa quanto a seqncia w
t
i
se, e
somente se,

i=1

t1
(v
t
i
w
t
i
) 0. Como assumimos que v
t
i
limitada, temos que a srie

i

t1
v
t
i
convergente e representa como o agente i avalia a seqncia (v
t
i
) de utilidades.
Quando a funo utilidade de todos os agentes tomam esta forma, nos referimos ao perl
((1)

t=1

t1
v
t
i
)
iN
como o perl de utilidades no jogo repetido associado com a seqncia
(v
t
) de perl de utilidades do jogo G.
Note que utilidades que satisfazem este critrio do desconto tratam os perodos de forma
diferente, pois o valor de um ganho diminui com o tempo. As outras condies tratam os
perodos de forma simtrica. No primeiro critrio os jogadores avaliam uma seqncia (v
t
i
)
essencialmente pelo limite de sua mdia aritmtica lim
T
1
T

T
t=1
v
t
i
, contudo como este limite
pode no existir o critrio se torna o seguinte:
Denio 8.2.3: Limite das Mdias. De acordo com este critrio, a seqncia de nmeros
reais (v
t
i
) melhor que a seqncia (w
t
i
) se, e somente se, liminf
T
1
T

T
t=1
(v
t
i
w
t
i
) > 0.
Quando a funo utilidade de todos os agentes tomam esta forma, nos referimos ao perl
(lim
T
1
T

T
t=1
v
t
i
)
iN
, se ele existe, como o perl de utilidades no jogo repetido associado com
a seqncia (v
t
) de perl de utilidades do jogo G.
Note que ao contrrio do caso do desconto onde a mudana de utilidade em apenas um
nico perodo pode alterar a preferncia entre seqncias, no caso do critrio do limite de
mdias, qualquer mudana em um nmero nito de perodos no altera como a seqncia
avaliada. Portanto, este critrio til para modelar situaes onde os agentes pe toda
importncia no longo prazo mesmo que isso signique prejuzos considerveis no curto prazo.
O terceiro e ltimo critrio trata os perodos simetricamente, coloca nfase no longo
prazo, mas ao mesmo tempo sensvel a uma mudana de utilidade em um nico perodo.
Denio 8.2.4: Ultrapassagem. De acordo com este critrio, a seqncia de nmeros
reais (v
t
i
) melhor que a seqncia (w
t
i
) se, e somente se, liminf
T

T
t=1
(v
t
i
w
t
i
) > 0.
Autor: Leandro Chaves Rgo
8.3. ESTRATGIAS COMO MQUINAS 100
Observao 8.2.5: Quando utilizamos este critrio, no pode-se denir um perl de utili-
dades do jogo repetido associado a uma seqncia de utilidades v
t
do jogo G, pois na grande
maioria dos casos de interesse

t
v
t
i
uma srie divergente.
Os seguintes exemplos ilustram algumas diferenas entre esses trs critrios. A seqncia
(1, 1, 0, 0, . . .) melhor para qualquer (0, 1) pelo critrio do desconto que a seqn-
cia (0, 0, . . .), mas de acordo com os outros dois critrios as seqncias so indiferentes. A
seqncia (1, 2, 0, 0, . . .) melhor que a seqncia (0, 0, . . .) segundo o critrio da ultrapas-
sagem, mas as duas so indiferentes segundo o critrio do limite das mdias. A seqncia
(0, . . . , 0, 1, 1, . . .) na qual M zeros so seguidos por uma seqncia constante de 1s melhor
pelo critrio do limite das mdias que a seqncia (1, 0, 0, . . .) para qualquer valor de M, mas
para qualquer existe um M

grande o suciente tal que para todo M > M

, esta ltima
seqncia melhor que a anterior pelo critrio do desconto para este valor de .
Denotaremos por u(a) o perl (u
i
(a))
iN
. Um vetor v IR
N
um perl de utilidades
de (N, (A
i
), (u
i
)) se existe um perl de estratgias a A para o qual v = u(a). Nos
referimos a um vetor v IR
N
como um perl de utilidades possvel de (N, (A
i
), (u
i
)) se ele
for uma combinao convexa de pers de utilidades, isto , se v =

aA

a
u(a) para alguma
coleo (
a
)
aA
de nmeros racionais no-negativos com

aA

a
= 1.
1
Note que um perl
de utilidades possvel de (N, (A
i
), (u
i
)) no necessariamente um perl de utilidades de
(N, (A
i
), (u
i
)).
8.3 Estratgias como Mquinas
Nesta seo apresentamos uma linguagem para descrever convenientemente as estratgias
utilizadas por jogadores em jogos repetidos. Comeamos denindo o que uma mquina,
que uma abstrao do processo utilizado por um jogador para implementar uma estratgia.
Uma mquina para o jogador i de um jogo G = (N, (A
i
), (u
i
)) repetido innitas vezes tm
as seguintes componentes:
Um conjunto de estados Q
i
.
Um estado inicial q
0
i
Q
i
.
Uma funo de sada f
i
: Q
i
A
i
que especica uma estratgia do jogo G para cada
estado.
Uma funo de transio
i
: Q
i
A Q
i
que associa um estado a cada par de estado
e perl de estratgias do jogo G.
Para ilustrar este conceito de mquina considere os seguintes exemplos de mquinas para
um jogador no Dilema do Prisioneiro representado na tabela a seguir repetido innitas vezes.
1
Seguimos a restrio de requerer que
a
seja racional sugerida por Osborne e Rubistein (1994), esta
restrio pode ser retirada complicando argumentos que veremos a seguir.
Autor: Leandro Chaves Rgo
8.3. ESTRATGIAS COMO MQUINAS 101
C D
C 3,3 0,4
D 4,0 1,1
Exemplo 8.3.1: A mquina (Q
i
, q
0
i
, f
i
,
i
) denida a seguir a mais simples que implementa
a estratgia que escolhe C enquanto ambos jogadores tenham sempre escolhido C no passado,
e escolhe D no caso contrrio.
Q
i
= {C, D}.
q
0
i
= C.
f
i
(C) = C e f
i
(D) = D.

i
(C, (C, C)) = C e
i
(X, (Y, Z)) = D se (X, (Y, Z)) = (C, (C, C)).
Exemplo 8.3.2: A seguinte mquina implementa a estratgia para o jogador 1 escolha C
enquanto 2 escolhe C, se o jogador 2 escolhe D quando o jogador 1 escolhe C, o jogador
1 jogar D por trs perodos seguidos e retornar a escolher C aps esses trs perodos
independente das escolhas de 2 nestes trs perodos, ou seja, 1 pune 2 por trs perodos e
depois perdoa 2.
Q
1
= {P
0
, P
1
, P
2
, P
3
}.
q
0
1
= P
0
.
f
1
(P
0
) = C e f
1
(P) = D se P = P
0
.

1
(P
0
, (, C)) = P
0
,
1
(P
0
, (, D)) = P
1
,
1
(P
1
, (, )) = P
2
,
1
(P
2
, (, )) = P
3
, e
1
(P
3
, (, )) =
P
0
.
Exemplo 8.3.3: A seguinte mquina implementa a estratgia para o jogador 2, comece
jogando C e continue se o jogador 1 escolhe D. Se o jogador 1 escolher C, ento escolha D,
continue a jogar D at que o jogador 1 escolha D novamente, quando 2 dever escolher C,
e assim por diante.
Q
2
= {R
0
, R
1
}.
q
0
2
= R
0
.
f
2
(R
0
) = C e f
2
(R
1
) = D.

2
(R
0
, (D, )) = R
0
,
2
(R
0
, (C, )) = R
1
,
2
(R
1
, (C, )) = R
1
, e
2
(R
1
, (D, )) = R
0
.
Autor: Leandro Chaves Rgo
8.4. ESTRATGIAS GATILHO: TEOREMAS DE NASH FOLK 102
8.4 Estratgias Gatilho: Teoremas de Nash Folk
Estudamos agora o conjunto de equilbrios de Nash de um jogo repetido innitas vezes.
Mostramos que este conjunto inclui pers de estratgias que no so repeties de equilbrios
de Nash do jogo que se repete a cada perodo. Para justicar este perl, cada jogador deve ser
impedido de desviar atravs de uma punio. Esta punio pode tomar vrias formas. Uma
possibilidade que cada jogador use uma estratgia gatilho: qualquer desvio dos outros
jogadores leva o jogador a realizar uma estratgia punitiva que dura para sempre. Nesta
seo estudaremos equilbrios em que os jogadores utilizam tais tipos de estratgias.
Dado um jogo G = (N, (A
i
), (u
i
)), uma utilidade minimax para o jogador i, denotada
por v
i
, a menor utilidade que os demais jogadores podem forar jogador i receber:
v
i
= min
a
i
A
i
max
a
i
A
i
u
i
(a
i
, a
i
).
Um perl de utilidades w para o qual temos w
i
v
i
para todo i N chamado individual-
mente racional; se w
i
> v
i
para todo i N, ento w individualmente racional estrito. Se
a A um perl de estratgias de G para o qual u(a) individualmente racional (estrito),
ento nos referimos a a como um perl de estratgias individualmente racional (estrito) de
G. Seja p
i
A
i
uma das solues do problema de minimizao acima. A coleo de
estratgias p
i
a punio mais severa que os demais jogadores podem impor ao jogador i.
Mostraremos que existe uma relao entre o conjunto de pers de utilidade dos equilbrios
de Nash de um jogo repetido innitas vezes e o conjunto de pers de utilidade possveis
e individualmente racionais do jogo G, quando utilizamos ou o critrio do desconto ou o
critrio do limite das mdias.
Teorema 8.4.1: Todo perl de utilidades de um equilbrio de Nash do jogo G = (N, (A
i
), (u
i
))
repetido innitas vezes quando se utiliza os critrios do limite das mdias ou do desconto
para qualquer fator de desconto (0, 1) um perl de utilidades individualmente racional
de G.
Prova: Suponha que w um perl de utilidades do jogo que no individualmente racional
em G. Ento, existe i N tal que w
i
< v
i
. w no pode ser um perl de utilidades de um
equilbrio de Nash do jogo repetido innitas vezes quando se utiliza os critrios do limite das
mdias ou do desconto para qualquer fator de desconto (0, 1), pois para qualquer perl
de estratgias do jogo repetido s, a estratgia s

i
do jogador i que uma melhor resposta a
s
i
(h) para cada histria h garante ao jogador i utilidade de pelo menos v
i
em cada perodo.
Portanto, utilizando qualquer um desses dois critrios, temos que vantajoso para o jogador
i mudar de estratgias quando estamos considerando qualquer perl de estratgias que d
ao jogador i utilidade menor que v
i
. Logo, tais pers no podem ser equilbrios de Nash do
jogo repetido.
O prximo teorema prova a recproca para o caso do critrio do limite das mdias.
Teorema 8.4.2: Teorema de Nash Folk para o Critrio do Limite das Mdias.
Todo perl de utilidades possvel e individualmente racional de um jogo G = (N, (A
i
), (u
i
))
um perl de utilidades de um equilbrio de Nash do jogo G repetido innitas vezes quando
utilizamos o critrio do limite das mdias.
Autor: Leandro Chaves Rgo
8.4. ESTRATGIAS GATILHO: TEOREMAS DE NASH FOLK 103
Prova: Seja w =

aA
(

)u(a) um perl de utilidades possvel e individualmente racional,


onde
a
um nmero inteiro e =

aA

a
. (Note que sempre possvel escrever um perl
de utilidades possvel e individualmente racional desta forma pois assumimos que
a
um
nmero racional na denio de um perl de utilidades possvel.) Seja (a
t
) uma seqncia
cclica de pers de estratgia do jogo G onde o ciclo de comprimento possui
a
repeties
do perl de estratgias a para todo a A. Seja s
i
a estratgia para o jogo repetido do
jogador i que escolhe a
t
i
em cada perodo t exceto quando existir algum perodo anterior
t

onde um nico jogador diferente de i desviou da estratgia especicada pelo perl a


t

,
neste caso, se j foi o primeiro jogador a desviar em um tal perodo t

, temos que i jogar


a estratgia (p
j
)
i
em todos os perodos subseqentes a t

independente do que os demais


jogadores faam no futuro. O perl de estratgias s um equilbrio de Nash do jogo repetido
visto que um jogador j que desvia da estratgia s
j
recebe no mximo sua utilidade minimax
v
j
em todo perodo subseqente ao primeiro desvio, portanto segundo o critrio do limite
das mdias a utilidade desta outra estratgia menor ou igual a v
j
. Mas de acordo com o
perl s, a utilidade de j igual a w
j
v
j
segundo este critrio, portanto nenhum jogador
tem incentivo a desviar da estratgia determinada pelo perl s.
O prximo teorema o resultado anlogo para o critrio do desconto.
Teorema 8.4.3: Seja w um perl de utilidades possvel e individualmente racional estrito
de um jogo G = (N, (A
i
), (u
i
)). Para todo > 0, existe

< 1 tal que se 1 > >

, ento o
jogo G repetido innitas vezes quando se utiliza o critrio do desconto com fator de desconto
possui um equilbrio de Nash com perl de utilidades w

satisfaz |w

w| < .
Prova: Exerccio.
Exemplo 8.4.4: Para ilustrar equilbrios de Nash nos quais jogadores utilizam estratgias
gatilho, considere dois jogos repetidos innitas vezes. O primeiro G
1
o Dilema do Prisioneiro
descrito na tabela a seguir:
C D
C 3,3 0,4
D 4,0 1,1
O segundo G
2
o jogo descrito na tabela a seguir:
C D
C 2,3 1,5
D 0,1 0,1
Em G
1
e G
2
temos que a utilidade minimax para ambos os jogadores 1 e jogando D
cada jogador garante que o outro no pode conseguir uma utilidade maior que este valor
(p
1
= p
2
= D). Em ambos os casos, a estratgia gatilho utilizada na prova do Teorema 8.4
envolve os jogadores mudar para utilizar D em resposta a algum desvio das estratgias de
equilbrio. Em G
1
como D domina C, ento esta ameaa justicvel. Por outro lado, em
G
2
como a estratgia C domina a estratgia D para o jogador 1, o jogador 1 sofre com a
punio que ele impe ao jogador 2. Portanto, esta ameaa no jogo G
2
parece inacreditvel.
Autor: Leandro Chaves Rgo
8.5. PUNINDO POR TEMPO LIMITADO: UM TEOREMA DE FOLK PERFEITO
PARA O CRITRIO DO LIMITE DAS MDIAS 104
Este exemplo nos leva a necessidade de analisar equilbrios de subjogo perfeito, pois neste
caso todos os jogadores tm que agir otimamente aps cada histria.
8.5 Punindo por Tempo Limitado: Um Teorema de Folk
Perfeito para o Critrio do Limite das Mdias
As estratgias gatilho utilizadas na prova do Teorema de Nash Folk punem os jogadores que
desviam da estratgia de equilbrio indenidamente. Esta punio pode ser desnecessaria-
mente severa, s necessrio manter a utilidade do jogador que desvia da estratgia prescrita
no nvel minimax por uma quantidade de perodos sucientemente grande para que o desvio
no seja lucrativo; deste modo, inibindo tal comportamento. Se as preferncias dos jogado-
res obedecem o critrio do limite das mdias, ento esta estratgia que retorna a trajetria
de equilbrio tem a vantagem que ela proporciona a mesma utilidade que a trajetria de
equilbrio, visto que elas diferem em apenas um nmero nito de perodos. Portanto, esta
estratgia no causa nenhum prejuzo ao jogador que precisa impor uma punio a algum
oponente. Veremos que tal estratgia constitui um equilbrio de subjogo perfeito do jogo
repetido innitas vezes quando o critrio do limite das mdias utilizado.
Teorema 8.5.1: Todo perl de utilidades possvel e individualmente racional estrito de um
jogo G = (N, (A
i
), (u
i
)) um perl de utilidades de um equilbrio de subjogo perfeito do jogo
G repetido innitas vezes quando consideramos o critrio do limite das mdias.
Prova: Seja w =

aA
(

)u(a) um perl de utilidades possvel e individualmente racional


estrito, onde
a
um nmero inteiro e =

aA

a
. Seja ainda (a
k
)

k=1
uma seqncia de
pers de estratgia de G que consiste de
a
repeties de a para cada a A.
Vamos construir um perl de estratgias para o jogo repetido que gera uma seqncia
de pers de estratgias de G que consiste de innitas repeties do ciclo (a
k
)

k=1
. Cada
jogador pune um desvio dos demais por um perodo limitado de tempo, que por convenincia
assumiremos que s inicia aps o m de um ciclo (a
k
)

k=1
. Aps o perodo de punio todos os
jogadores retomam as repeties de (a
k
)

k=1
. Se houverem desvios simultneos de jogadores
esses so ignorados e no so punidos. Como estamos considerando o critrio do limite das
mdias, se todos os jogadores, seguem este tipo de estratgia temos que qualquer trajetria
tm perl de utilidade w.
Formalmente, seja g

= max
iN,a

i
A
i
,aA
u
i
(a
i
, a

i
) u
i
(a), isto , g

o maior ganho que


qualquer jogador pode ter desviando de qualquer perl de estratgias. Como w
i
> v
i
, existe
um inteiro m

grande o suciente tal que m

(w
i
v
i
) g

para todo i N. A estratgia


de qualquer jogador i pune qualquer jogador que desvie por m

perodos e descrita pela


seguinte mquina:
Q
i
= {(Norm
k
, d): ou k = 1 e d = 0, ou 2 k e d {0} N} {P(j, t) : j N
e 1 t m

}.
O estado (Norm
k
, 0) signica que estamos no k-simo perodo de um ciclo e
nenhum jogador merece punio.
Autor: Leandro Chaves Rgo
8.5. PUNINDO POR TEMPO LIMITADO: UM TEOREMA DE FOLK PERFEITO
PARA O CRITRIO DO LIMITE DAS MDIAS 105
O estado (Norm
k
, j) signica que estamos no k-simo perodo de um ciclo e o
jogador j merece punio.
O estado P(j, t) signica que o jogador j est sendo punido e ainda restam t
perodos de punio.
q
0
i
= (Norm
1
, 0).
f
i
((Norm
k
, d)) = a
k
i
, f
i
(P(j, t)) = (p
j
)
i
se j = i e f
i
(P(i, t)) = b
i
(p
i
), onde b
i
(p
i
)
uma melhor resposta para p
i
em G.
De P(j, t) mude para P(j, t 1) se 2 t m

, de P(j, 1) mude para (Norm


1
, 0).
De (Norm
k
, d) mude para (Norm
k+1(mod)
, d), exceto quando
d = 0 e apenas o jogador j desviou de a
k
, neste caso, de (Norm
k
, 0) mude para
(Norm
k+1
, j) se k = e de (Norm

, 0) mude para P(j, m

).
d = 0 e k = , neste caso de (Norm

, d) mude para P(d, m

).
Vamos agora vericar que este perl de estratgias constitui um equilbrio de subjogo
perfeito do jogo repetido quando usamos o critrio do limite das mdias. Primeiro, aps
qualquer histria na qual nenhum jogador tenha desviado ainda, nenhum jogador pode des-
viar da estratgia de equilbrio e obter ganhos, pois o maior ganho possvel por ciclo g

e
a perda que o jogador i sofrer pela punio dos demais m

(w
i
v
i
) por ciclo, que maior
ou igual a g

para todo i N.
Suponha agora que estamos em qualquer histria na qual o jogador j merece ser punido ou
est sendo punido. Note que aps o ciclo de punio para o jogador j, segundo as estratgias
de equilbrio, o jogo retornar ao estado inicial, e j provamos que deste ponto em diante
no vantajoso para nenhum jogador desviar da estratgia de equilbrio. Portanto, como
at o m do ciclo da punio temos uma quantidade nita de no mximo ( +m

) perodos,
segundo o critrio do limite das mdias nenhum jogador pode desviar com vantagem.
Considere novamente o jogo do Dilema do Prisioneiro da tabela a seguir repetido innitas
vezes.
C D
C 2,3 1,5
D 0,1 0,1
Neste jogo, temos v
1
= v
2
= 1. Considere o perl de estratgias do jogo repetido
denido na prova do Teorema 8.5.1 que suporta a seqncia de pers de estratgia (a
t
), onde
a
t
= (C, C) que toma a seguinte forma: cada jogador escolhe C em todo perodo a no ser
que os outros jogadores desviaram no perodo anterior, neste caso o jogador escolhe D por
2 perodos e depois retorna a escolher C.
Apesar desta estratgia ser um equilbrio de subjogo perfeito quando considera-se o cri-
trio do limite das mdias, ela no um equilbrio de considerarmos ou a regra da ultra-
passagem ou a regra do desconto. Note que aps um desvio do jogador 2, o jogador 1 deve
Autor: Leandro Chaves Rgo
8.6. PUNINDO QUEM NO PUNE: UM TEOREMA DE FOLK PERFEITO PARA O
CRITRIO DA ULTRAPASSAGEM 106
escolher D por 2 perodos antes de retornar a C. Contudo, jogador 1 estaria melhor esco-
lhendo C que punindo o jogador 2, pois a seqncia de utilidades (1, 1, 2, 2, 2, . . .) melhor
segundo os critrios de ultrapassagem e do desconto que a seqncia (0, 0, 2, 2, 2, . . .). Para
justicar uma trajetria de equilbrio na qual o perl de estratgias (C, C) utilizado em
todo perodo, jogador 2 precisa punir o jogador 1 se este no punir o jogador 2. Alm disso,
jogador 2 tem que ser punido se ele no punir jogador 1 por no punir o jogador 2, e assim
por diante. A seguir usaremos estratgias que satisfazem este critrio para provar Teoremas
Perfeitos de Folk para os critrios de ultrapassagem e desconto.
8.6 Punindo quem no Pune: Um Teorema de Folk Per-
feito para o Critrio da Ultrapassagem
O prximo teorema utiliza estratgias que punem quem no punir para provar um teorema
de Folk Perfeito para o critrio da ultrapassagem. Por simplicidade, construiremos uma
estratgia apenas para o caso onde a trajetria de equilbrio consiste de repeties de um
nico perl de estratgia individualmente racional estrito.
Teorema 8.6.1: Para todo perl de estratgias individualmente racional estrito a

de um
jogo G = (N, (A
i
), (u
i
)), existe um um equilbrio de subjogo perfeito do jogo G repetido
innitas vezes quando consideramos o critrio da ultrapassagem que gera a trajetria (a
t
),
onde a
t
= a

, t.
Prova: Seja M o mximo de u
i
(a) para todo i N e a A. Considere o perl de estratgias
onde o jogador i utiliza a estratgia descrita pela seguinte mquina:
Q
i
= {Norm} {P(j, t) : j N e t IN}.
No estado Norm ningum necessita ser punido.
No estado P(j, t) jogador j necessita ser punido por t perodos.
q
0
i
= Norm.
f
i
(Norm) = a

i
, f
i
(P(j, t)) = (p
j
)
i
se j = i e f
i
(P(i, t)) = b
i
(p
i
), onde b
i
(p
i
) uma
melhor resposta para p
i
em G.
Em resposta a um perl de estratgia a:
De Norm que em Norm exceto quando a
j
= a

j
para um e somente um j, neste
caso mude para P(j, t), onde t o menor inteiro tal que M +tv
j
< (t + 1)u
j
(a

).
(Lembre que como a

individualmente racional estrito u


j
(a

) > v
j
j N.)
De P(j, t):
se a
j
= p
j
ou a
l
= (p
j
)
l
para pelo menos dois jogadores diferentes de j, ou
seja, ou todos punem j ou pelo menos dois no punem, mude para P(j, t 1)
se t 2, e para Norm se t = 1.
Autor: Leandro Chaves Rgo
8.7. RECOMPENSANDO QUEM PUNE: UM TEOREMA DE FOLK PERFEITO PARA
O CRITRIO DO DESCONTO 107
se a
l
= (p
j
)
l
para um e somente um jogador l, ento mude para P(l, T(j, t)),
onde T(j, t) um inteiro grande o suciente tal que a soma da utilidade de l
no estado P(j, t) e nos T(j, t) perodos seguintes se l no desviar maior ou
igual sua utilidade no estado P(j, t) quando ele desvia mais T(j, t)v
l
. (Este
nmero T(j, t) existe pois aps t perodos os jogadores retornariam ao perl
de equilbrio a

e u
l
(a

) > v
l
).
Com este perl de estratgias, qualquer tentativa de algum jogador de aumentar sua
utilidade desviando sozinho aps qualquer histria, incluindo histrias aps a qual punio
deve ocorrer, no vantajosa devido a punio imposta pelos outros jogadores. Um argu-
mento similar ao do Teorema 8.5.1 prova que este perl realmente um equilbrio de subjogo
perfeito. Verique!
8.7 Recompensando quem Pune: Um Teorema de Folk
Perfeito para o Critrio do Desconto
Como na estratgia utilizada na seo anterior um jogador, que no pune um outro jogador
j que deveria ser punido no perodo t, deve ser penalizado durante T(j, t) perodos no futuro,
temos que estes perodos de penalizao podem ser cada vez maiores, portanto no importa
quo prximo de 1 seja o fator de desconto pode ser que seja impossvel que a pena futura
seja maior que o ganho presente do jogador quando utilizamos o critrio do desconto.
Para estabelecer um resultado anlogo para o caso do critrio do desconto, para tanto
usaremos estratgias segundo as quais jogadores que punem jogadores que desviam da estra-
tgia de equilbrio so recompensados no futuro tornando o ato de punir vantajoso para tais
jogadores. Como anteriormente, por simplicidade, construiremos uma estratgia apenas para
o caso onde a trajetria de equilbrio consiste de repeties de um nico perl de estratgia
individualmente racional estrito. Neste, teorema precisamos restringir a classe de jogos G.
Dizemos que um jogo G = (N, (A
i
), (u
i
)) tem dimensionalidade completa em relao a um
perl de estratgias a

individualmente racional e estrito se existe uma coleo (a(i))


iN
de
pers de estratgias individualmente racionais e estritos de G de forma que para todo i N,
temos a


i
a(i) e a(j)
i
a(i) para todo j N {i}.
Teorema 8.7.1: Seja a

um perl de estratgias individualmente racional e estrito de um


jogo G = (N, (A
i
), (u
i
)) com dimensionalidade completa em relao a a

. Ento, existe < 1


tal que para todo > existe um equilbrio de subjogo perfeito do jogo G repetido innitas
vezes quando utilizamos o critrio do desconto com fator de desconto que gera a trajetria
(a
t
) na qual a
t
= a

para todo t.
Prova: Iremos descrever as estratgias utilizadas pelos jogadores neste tipo de equilbrio
de subjogo perfeito utilizando uma mquina com trs tipos de estados. No estado C(0) o
perl de estratgias de G escolhido pelos jogadores a

. Para cada j N o estado C(j)


um estado de reconciliao que ocorre aps uma punio ao jogador j ser completada,
neste estado o perl de estratgias escolhido a(j). Para cada jogador j e perodo t entre
Autor: Leandro Chaves Rgo
8.7. RECOMPENSANDO QUEM PUNE: UM TEOREMA DE FOLK PERFEITO PARA
O CRITRIO DO DESCONTO 108
1 e L, que especicaremos depois, o estado P(j, t) um no qual ainda restam t perodos
para o jogador j ser punido, neste estado todo jogador i exceto j escolhe a estratgia (p
j
)
i
,
e o jogador j escolhe uma melhor resposta para p
j
. Se um nico jogador i se desviar da
trajetria de equilbrio ocorre uma transio para o estado P(i, L). Se em nenhum dos L
perodos houver um desvio por um nico jogador diferente de i o estado se torna C(i). Note
que o conjunto de estados {C(i)} serve como um sistema que pune jogadores que desviam
durante a fase de punio: se algum jogador i no pune jogador j como ele deveria fazer,
ento aps a fase de punio ao invs do estado se tornar C(j) se tornar C(i), ento o
perl de estratgias escolhido ser pior para o jogador i, pois a(j)
i
a(i). Formalmente,
assumindo que a(0) = a

, temos
Q
i
= {C(j) : j {0} N} {P(j, t) : j N e 1 t L}.
q
0
i
= C(0).
f
i
(C(j)) = (a(j))
i
, f
i
(P(j, t)) = (p
j
)
i
se j = i e f
i
(P(i, t)) = b
i
(p
i
), onde b
i
(p
i
)
uma melhor resposta para p
i
em G.
Em resposta a um perl de estratgia a:
De C(j) que em C(j) exceto quando a
k
= (a(j))
k
para um e somente um k,
neste caso mude para P(k, L).
De P(j, t):
se a
j
= p
j
ou a
k
= (p
j
)
k
para pelo menos dois jogadores diferentes de
j, ou seja, ou todos punem j ou pelo menos dois no punem, mude para
P(j, t 1) se t 2, e para C(j) se t = 1.
se a
k
= (p
j
)
k
para um e somente um jogador k = j, ento mude para
P(k, L).
Resta-nos agora especicar os valores de e L. Seja M o mximo de u
i
(a) para todo
i N e a A. Devemos escolher e L grandes o suciente para que qualquer desvio no
seja vantajoso. Considere que estamos em um estado C(j), ento a utilidade esperada para
qualquer jogador i desviar da estratgia de equilbrio no mximo igual a:
M +
L

k=1

k
v
i
+

k=L+1

k
u
i
(a(i)).
Por outro lado se i no desviar, sua utilidade esperada :
u
i
(a(j)) +
L

k=1

k
u
i
(a(j)) +

k=L+1

k
u
i
(a(j)).
Note que or suposio temos que u
i
(a(j)) > u
i
(a(i)). Como u
i
(a(j)) > v
i
para todo i,
podemos escolher L tal que M u
i
(a(j)) < L(u
i
(a(j)) v
i
) para todo i N e j {0} N.
Autor: Leandro Chaves Rgo
8.8. JOGOS REPETIDOS FINITAS VEZES 109
Podemos ainda escolher

prximo o suciente de 1 tal que para todo >

, i N e
j {0} N, temos
M +
L

k=1

k
v
i
< u
i
(a(j)) +
L

k=1

k
u
i
(a(j)).
Portanto, para tais escolha de L e

no vantajoso para nenhum jogador i desviar em um


estado C(j). Suponha agora que estamos em um estado P(j, t), ento a utilidade esperada
para qualquer jogador i = j desviar da estratgia de equilbrio no mximo igual a:
M +
L

k=1

k
v
i
+

k=L+1

k
u
i
(a(i)).
Por outro lado se i no desviar, sua utilidade esperada :
t1

k=0

k
u
i
(p
j
, b
j
(p
j
)) +

k=t

k
u
i
(a(j)).
Como L+1 > t e u
i
(a(j)) > u
i
(a(i)), podemos escolher >

prximo o suciente de 1 tal


que para todo > , i N e j {0} N, temos
M +
L

k=1

k
v
i

t1

k=0

k
u
i
(p
j
, b
j
(p
j
))
<

k=t

k
u
i
(a(j))

k=L+1

k
u
i
(a(i)).
Como M > v
i
temos que no vantajoso para o jogador i desviar em um estado P(j, t).
Como j utiliza uma melhor resposta em um estado P(j, t) no vantajoso para ele desviar
desta estratgia.
8.8 Jogos Repetidos Finitas Vezes
Vamos agora estudar jogos repetidos nitas vezes. Seja G = (N, (A
i
)
iN
, (u
i
)
iN
), onde A
i

compacto e u
i
uma funo contnua e limitada em A =
jN
A
j
.
Denio 8.8.1: A repetio nita de um jogo G um jogo em forma extensiva com
informao perfeita e movimentos simultneos (N, H, P, (u

i
)
iN
), onde
H = {} (
T
t=1
A
t
), onde a histria inicial.
P(h) = N para toda histria no terminal, de forma que todos os jogadores se movem
aps cada repetio do jogo G.
u

i
uma funo utilidade em A
T
que estende a funo utilidade u
i
. Vamos nos
restringir ao caso do critrio do limite das mdias, ou seja, assumiremos que u

i
(a) =
1
T

T
t=1
u
i
(a
t
), onde a = (a
1
, a
2
, . . . , a
T
).
Autor: Leandro Chaves Rgo
8.8. JOGOS REPETIDOS FINITAS VEZES 110
Uma histria a terminal se, e somente se, a A
T
. Aps qualquer histria no terminal,
cada jogador i escolhe uma ao em A
i
. Portanto, como no caso innito uma estratgia para
o jogador i uma funo que associa uma ao em A
i
para cada seqncia nita de pers
de estratgias de G. Este jogo conhecido como a repetio do jogo G durante T perodos.
8.8.1 Equilbrio de Nash
O argumento intuitivo por trs dos Teoremas de Folk para jogos repetidos innitas vezes
que qualquer perl de utilidades que seja desejvel por todos os jogadores pode ser um
equilbrio de Nash se todos acreditam que quando se desviarem da trajetria de equilbrio
sero punidos pelos demais jogadores. No caso de jogos nitos, este argumento no pode ser
aplicado em todos os casos, pois sempre teremos que os jogadores devem jogar um equilbrio
de Nash no ltimo perodo de repetio T. Portanto, quando analisamos o perodo anterior
T 1 as ameaas de punio podem se tornar inacreditveis. O prximo teorema mostra que
no caso especial em que todos os equilbrios de Nash o perl de utilidades igual ao perl
de utilidades minimax de G (como no caso do Dilema do Prisioneiro), ento em qualquer
perodo os jogadores devero utilizar um equilbrio de Nash de G.
Teorema 8.8.2: Se o perl de utilidades em qualquer equilbrio de Nash de um jogo em
forma normal G o perl (v
i
)
iN
de utilidades minimax de G, ento para qualquer valor
de T, todo equilbrio de Nash do jogo G repetido T vezes gera uma trajetria de pers de
estratgias (a
1
, . . . , a
T
) do jogo G com a propriedade que a
t
um equilbrio de Nash de G,
para todo t = 1, 2, . . . , T.
Prova: Seja s o perl de estratgias do jogo repetido que gera a trajetria de equilbrio
a = (a
1
, . . . , a
T
). Suponha que exista um perodo t tal que a
t
no seja um equilbrio de Nash
de G. Ento, existe i N tal que u
i
(a
t
i
, a
i
) > u
i
(a
t
). Considere a estratgia s

i
do jogador
i que difere de s
i
apenas no fato que aps a histria (a
1
, a
2
, . . . , a
t1
) ela escolhe a
i
, e aps
qualquer histria h que se segue, ela escolhe uma ao melhor resposta para s
i
(h), obtendo
portanto uma utilidade pelo menos igual a utilidade minimax v
i
. A trajetria gerada por
(s
i
, s

i
) uma histria terminal b A
T
que idntica a a at o perodo t 1, u
i
(b
t
) > u
i
(a
t
),
e u
i
(b
r
) v
i
= u
i
(a
r
) para todo r t + 1. Portanto, jogador i prefere b a a, contradizendo
a suposio que s um equilbrio de Nash do jogo repetido.
Este resultado se aplica a uma classe muito pequena de jogos. Por exemplo, se o jogo G
possuir um equilbrio de Nash a

no qual a utilidade de algum jogador excede sua utilidade


minimax, ento este jogador pode ser punido no ltimo perodo se ele tiver desviado no
penltimo perodo e a estratgia que seria utilizada no ltimo perodo fosse igual a a

. Se
esta punio no for suciente, ento existe L grande o suciente tal que se a

for a estratgia
a ser jogada nos ltimos L perodos, ento qualquer desvio antes destas ltimas L jogadas
pode ser punido impondo um pagamento minimax ao jogador que desviar at o m do jogo.
O valor de L independente da durao do jogo T. portanto para T grande o suciente
podemos obter como mdia das utilidades em um equilbrio de Nash do jogo repetido T vezes
Autor: Leandro Chaves Rgo
8.8. JOGOS REPETIDOS FINITAS VEZES 111
qualquer perl de utilidades possvel e individualmente racional estrito. O prximo teorema
ilustra este fato.
Teorema 8.8.3: Se G = (N, (A
i
), (u
i
)) tem um equilbrio de Nash a

no qual a utilidade de
qualquer jogador i excede sua utilidade minimax v
i
, ento para qualquer perl de estratgia
a

de G individualmente racional estrito e qualquer > 0, existe um inteiro T

tal que se
T > T

o jogo G repetido T vezes tem um equilbrio de Nash no qual o pagamento de cada


jogador i difere de u
i
(a

) por menos que .


Prova: Considere a estratgia do jogador i descrita pela seguinte mquina.
Q
i
= {Norm
t
: 1 t T L} {P(j) : j N} {Nash}.
q
0
i
= Norm
1
.
f
i
(Norm
t
) = a

i
, f
i
(Nash) = a

i
, f
i
(P(j)) = (p
j
)
i
se j = i e f
i
(P(i)) = b
i
(p
i
), onde
b
i
(p
i
) uma melhor resposta para p
i
em G.
De Norm
t
mude para Norm
t+1
exceto quando t = T L, neste caso mude para Nash,
ou quando apenas um jogador j desviou de a

, neste caso mude para P(j).


De P(j) permanea em P(j) para todo j N, e de Nash permanea em Nash.
Resta-nos especicar L. Um desvio s pode ser vantajoso em um dos estados Norm
t
.
Para impedir tal desvio requeremos que L seja grande o suciente tal que max
a
i
A
i
u
i
(a

i
, a
i
)
u
i
(a

) L(u
i
(a

) v
i
) para todo i N. Finalmente, para obter um perl de utilidades que
difere de u
i
(a

) por menos de , escolhemos T

de forma que
|
(T

L)u
i
(a

) + Lu
i
(a

)
T

u
i
(a

)| < , i N.
8.8.2 Equilbrio de Subjogo Perfeito
Em qualquer equilbrio de subjogo perfeito de um jogo repetido nitas vezes, o perl de
estratgias utilizado no ltimo perodo aps qualquer histria (no apenas aps a histria
que ocorre se os jogadores seguem suas estratgias) deve ser um equilbrio de Nash de G.
Portanto, a estratgia utilizada no teorema anterior no constitui um equilbrio de subjogo
perfeito. Na verdade nenhuma punio possvel se G tem um nico equilbrio de Nash.
Teorema 8.8.4: Se todos os equilbrios de Nash de um jogo em forma normal G possuem
um nico perl de utilidades, ento para qualquer valor de T o perl de estratgias escolhido
aps qualquer histria em qualquer equilbrio de subjogo perfeito do jogo G repetido T vezes
um equilbrio de Nash de G.
Autor: Leandro Chaves Rgo
8.8. JOGOS REPETIDOS FINITAS VEZES 112
Prova: O perl de estratgias utilizado em qualquer subjogo que comea no perodo T em
qualquer equilbrio de subjogo perfeito do jogo repetido T vezes deve ser um equilbrio de
Nash de G. Portanto, a utilidade de qualquer jogador no ltimo perodo independente da
histria. Conseqentemente, em qualquer subjogo que comece no perodo T 1 temos que
em qualquer equilbrio de subjogo perfeito o perl de estratgias utilizado em T 1 deve ser
um equilbrio de Nash de G. O restante da prova segue por induo.
No caso em que o jogo G possua mais de um equilbrio de Nash que produzam diferentes
pers de utilidades, ento podemos realizar punio em um equilbrio de subjogo perfeito.
Considere o seguinte exemplo:
Exemplo 8.8.5: Considere o jogo em forma normal a seguir:
C D E
C 3,3 0,4 0,0
D 4,0 1,1 0,0
E 0,0 0,0 0,0
Existe um equilbrio de subjogo perfeito deste jogo repetido T vezes no qual o perl
de estratgias (C, C) utilizado em todos exceto nos ltimos 3 perodos, nos quais o perl
utilizado (D, D). No equilbrio ambos jogadores utilizam a seguinte estratgia, escolha C
em qualquer perodo at o perodo T 3 a no ser que D j tenha sido usada no passado,
neste caso escolha E at o m do jogo. Se C for utilizada por ambos at o perodo T 3,
escolha D nos ltimos 3 perodos. Um jogador que desviar para D at o perodo T 3 aps
uma histria que consiste somente de pers (C, C) nos perodos anteriores ganhar 1 em
utilidade neste perodo e perder pelo menos 3 em utilidade j que o outro jogador escolher
E nos perodos seguintes. Observe que esta punio justicada pois, (E, E) tambm
um equilbrio de Nash de G. interessante ressaltar que este jogo difere de um Dilema do
Prisioneiro apenas pela incluso de uma ao fracamente dominada para cada jogador.
O prximo teorema caracteriza o conjunto de pers de utilidade que podem ser obtidos
atravs de um equilbrio de subjogo perfeito do jogo G repetido innitas vezes para uma
grande classe de jogos G.
Teorema 8.8.6: Seja a

um perl de estratgias individualmente racionais estrito de G =


(N, (A
i
), (u
i
)). Assuma que (a) para cada i N existem dois equilbrios de Nash de G que
diferem na utilidade do jogador i e (b) existe uma coleo (a(i))
iN
de pers de estratgias
individualmente racionais estritos de G tal que para todo jogador i N, temos a


i
a(i) e
a(j)
i
a(i) para todo j N {i}. Ento, para todo > 0, existe um inteiro T

tal que se
T > T

o jogo G repetido T vezes tem um equilbrio de subjogo perfeito no qual a utilidade


do jogador i difere de u
i
(a

) por menos de para todo i N.


Prova: A prova formal omitida, mas intuitivamente, o perl de estratgias do jogo repetido
innitas vezes tem o seguinte formato. Existem trs etapas. Durante as duas primeiras
etapas os jogadores escolhem a

enquanto nenhum jogador desviar. Caso no haja desvios


nas duas primeiras etapas, na terceira etapa os jogadores implementam uma seqncia de
Autor: Leandro Chaves Rgo
8.8. JOGOS REPETIDOS FINITAS VEZES 113
equilbrios de Nash do jogo G para o qual a utilidade mdia de cada jogador maior que a
pior utilidade do jogador em algum equilbrio de Nash do jogo G. Desvios so punidos da
seguinte maneira. Um desvio na primeira etapa punido com os demais jogadores forando
a utilidade minimax no jogador que desviou por um longo perodo e depois entrando em uma
fase de reconciliao como no caso de teorema de Folk Perfeito para o critrio do desconto.
Um desvio na segunda etapa punido com os jogadores implementando no incio da terceira
etapa o pior equilbrio de Nash para o jogador que desviou. Como na terceira etapa, os
jogadores s implementam equilbrios de Nash no h incentivo a desvios.
Autor: Leandro Chaves Rgo
Referncias Bibliogrcas
1. Myerson, R. (1997), Game Theory - Analysis of Conict - Harvard University Press.
2. Osborne, M. e Rubinstein, A. (1994), A Course in Game Theory, The MIT press.
3. Osborne, M. (2003), An Introduction to Game Theory, Oxford University Press.
Alguns captulos esto disponveis on-line em
http://www.chass.utoronto.ca/osborne/igt/index.html.
4. Osborne, M. e Rubinstein, A. (1990), Bargaining and Markets, Academic Press.
Disponvel on-line em http://ww2.economics.utoronto.ca/osborne/bm/.
5. Rubinstein, A. (2006), Lecture Notes in Microeconomic Theory: The Economic Agent,
Princeton University Press. Disponvel on-line em http://press.princeton.edu/rubinstein/.
6. Kreps, D. (1988) Notes on the Theory of Choice, Underground Classics in Economics.
7. Campello de Souza, F. M. (2007), Decises Racionais em Situaes de Incerteza, 2a.
edio.
8. Joseph Halpern e Leandro Chaves Rgo, Extensive Games with Possibly Unaware
Players, publicado nos anais da AAMAS06 - 5th International Joint Conference on
Autonomous Agents and Multiagent Systems, pp. 744751, Maio/2006, Japo. Verso
completa disponvel em http://arxiv.org/PS_cache/arxiv/pdf/0704/0704.2014v1.pdf .
114

Vous aimerez peut-être aussi