Académique Documents
Professionnel Documents
Culture Documents
Hypothèses:
• Supposons que nous n’ayons que deux agents: Ag = {i, j}
• Les agents sont supposés être-intéressés, c'est-à-dire qu'ils ont des préférences
sur comment est l'environnement.
• Soit E = {e1, e2,. . .} est l'ensemble des «résultats» ou « états» pour lequel les
agents ont des préférences.
Les fonctions d'utilité conduisent à des ordres de préférence sur les résultats, par
exemple:
e ≽i e′ s ignifie ui(e) ≥ ui(e′)
e ≻i e′ s ignifie ui(e) > ui(e′)
τ: Ac x Ac -- E
Action de Action de
l’agent i l’agent j
• Voici une fonction de transformation d'état τ(i, j)
i préfère tous les résultats qui découlent de C à tous les résultats qui surviennent
par D.
• Ainsi C est le choix rationnel pour i.
Comment un agent rationnel se comportera-t-il dans un scénario donné?
La théorie des Jeux fournit les Concepts de la solution
EXEMPLE
Deux passagers entrent dans un bus dans lequel deux adjacentes places sont libres. Chaque
passager doit décider s’il s’assoit ou s’il reste debout. S’asseoir tout seul est plus confortable
que s’asseoir à côté d’une autre personne, qui est plus confortable que de rester debout.
• On suppose que chaque passager prend uniquement soin de son propre confort (égoïsme).
Cas :altruisme
Intelligence Artificielle APPRENTISSAGE - SMA
Jeux répétés
Jeux stochastiques
Concepts de la solution
Jeux en forme normale
Pieces de monnais
(répété à somme nulle)
Les joueurs r et c cachent chacun une pièce de monnaie affichant pile (1) ou face (2) qu’ils dévoilent
simultanément. Si tous deux ont choisi pile (1,1), ou face (2,2), c’est r qui emporte la pièce de c, sinon
((1,2) ou (2,1)) c’est c gagne la pièce de r.
r
1 2
c 1 -1 , 1 1 , -1
2 1 , -1 -1, 1
Dilemme du Prisonnier
Deux suspects sont arrêtés par la police. Mais les agents n'ont pas assez de preuves pour les
inculper, donc ils les interrogent séparément en leur proposant la même proposition.
« Si tu dénonces ton complice et qu'il ne te dénonce pas, tu seras remis en liberté et l'autre écopera
de 4 ans de prison. Si tu le dénonces et lui aussi, vous écoperez tous les deux de 3 ans de prison. Si
personne ne se dénonce, vous aurez tous deux 1 an de prison. »
r c
1(D) 2(ND)
r 1(D) 3,3 0, 4
2(ND) 4,0 1,1
Il faut adopter une stratégie
Intelligence Artificielle APPRENTISSAGE - SMA
Types des jeux
Une stratégie d’un joueur : spécification d’une action pour ce joueur chaque fois qu’il est susceptible de
jouer.
Une stratégie pure fournit une définition complète de la manière dont un joueur va jouer à un jeu.
Une stratégie mixte est l'attribution d’une probabilité à chaque stratégie pure.
Π−j = Π \{j}, est un profil de stratégies qui contient les stratégies de tous les joueurs hormis
joueur j
Intelligence Artificielle APPRENTISSAGE - SMA
Pareto efficacité
Un profil de stratégies est dit Pareto optimal si son utilité est maximale pour
tous les joueurs
- dans le cas où l'agent A adopterait 1 l'agent B ne peut pas faire mieux que d'utiliser 2 et
- dans le cas où l'agent B adopterait 2 l'agent A ne peut pas faire mieux que de d'utiliser 1.
Pour généraliser
- Pour un joueur j une stratégie j* est une meilleure réponse (BR pour best response) sur le
profil Π−j si l’utilité espérée du profil (Π−j U { j* }) est maximisée pour j
- Un profil de stratégies Π forme un équilibre de Nash si une déviation unilatérale de Π ne
peut augmenter l’utilité d’aucun joueur
- En d’autres mots, Π est un équilibre de Nash ssi j sa Stratégie j* ∈ Π est une
meilleure réponse à Π−j :
j* ∈ BRj(Π-j) j
j
C D
C 4, 4 4, 0
i
D 0, 4 1, 1
John Nash et la théorie des jeux
Histoire
•Né en 1928
•Thèse de 28 pages à Princeton en 2 ans
•3 articles en 1950 et 1953 (puis rien pendant 30 ans)
•Interné pour schizophrénie à partir de 1960
•Prix Nobel en 1994
•Rupture avec l’équilibre économique
Stratégies dominantes
• Une stratégie dominante pour un joueur est une stratégie qui lui donne
toujours un gain supérieur ou égal au gain qu’il peut attendre de toutes ses
autres stratégies (quelles que soient les stratégies des autres joueurs)
– si chacun des joueurs possède une stratégie dominante, alors il existe au moins
un équilibre de Nash consistant pour les joueurs à choisir leur stratégie dominante
Stratégies dominées
• Une stratégie dominée pour un joueur est une stratégie qui lui donne toujours
un gain inférieur à celui d’au moins une des autres stratégies à sa disposition
(quelles que soient les stratégies des autres joueurs).
– Une stratégie peut n'être dominée que par une seule stratégie
On peut également constater que quelque soit la stratégie de B, il sera toujours optimal
pour A de choisir la stratégie S2 (le gain de S2 est toujours supérieur ou égal au gain de
S1) => S2 est la stratégie dominante pour A.
De la même manière, quelle que soit la stratégie de A, B aura toujours intérêt à choisir
S2 => S2 est la stratégie dominante de B.
On peut remarquer grâce à cet exemple qu’un équilibre de Nash n’est pas forcément
la situation la plus avantageuse pour les deux joueurs.
En effet, si les deux joueurs avaient choisi chacun la stratégie S1, ils auraient tous les
deux eu un gain de 3, ce qui est supérieur à leur gain de la situation (S2 ; S2).
Cependant, ce n’est pas un équilibre car si un joueur considère que l’autre va choisir S1,
il est plus avantageux pour lui de choisir de dévier en S2
Intelligence Artificielle APPRENTISSAGE - SMA
Remarque : une situation dans laquelle tous les joueurs peuvent augmenter leurs
gains est appelée inférieure au sens de Pareto. On dit qu'une situation est optimale
au sens de Pareto s'il n'est pas possible d'augmenter les gains ou le bien-être d'un
individu sans réduire les gains ou le bien-être d'un autre individu.
Dans ce jeu, (S2 ; S2) n’est donc pas optimal au sens de Pareto car il est possible de
trouver une situation (S1 ; S1) qui améliore les gains des deux joueurs. Notez par
contre que toutes les autres situations sont optimales au sens de Pareto. Ce critère
d'optimalité n'est pas nécessairement un critère d'efficacité.
Deux Firmes A et B vendent des produits concurrents et il faut
décider de faire compagne de publicité ou pas.
Firme B
Compagne Pas
Compagne
Firme A
Compagne 10 , 5 15 , 0
Pas 6,8 10 , 2
Compagne
-Equilibre de Nash:
« J’agis au mieux de mes intérêts étant ce que fait mon adversaire »
(et vice-versa)
Intelligence Artificielle APPRENTISSAGE - SMA
(S2 ; S1) n’est pas un équilibre de Nash car A a intérêt à choisir S1.
(S1 ; S2) n’est pas un équilibre de Nash car B a intérêt à dévier en S1.
(S1 ; S1) et (S2 ; S2) sont quant à eux des équilibres de Nash, car dans ces situations
un joueur (A ou B) ne peut pas faire mieux en choisissant la stratégie alternative.
Le gain de chaque joueur est au moins aussi bon que le gain qu’il recevrait en
choisissant unilatéralement une autre stratégie.
L’équilibre de Nash strict est un équilibre de Nash où le gain de chaque joueur doit être
strictement meilleur que le gain résultant d’une déviation unilatérale du joueur.
Dans l’exemple ci-dessus, (S1 ; S1) est le seul équilibre de Nash strict.
Equilibre en Stratégie mixte
Une stratégie mixte pour un joueur est une distribution de probabilité sur l’ensemble de
ses stratégies pures :
– Si m stratégies pures possibles, (1, 2, …, i,…, m-1, m ) stratégies mixtes telles
Σm i = 1où i est la probabilité de jouer la ième stratégie.
Dans un équilibre en stratégies mixtes, chacun des joueurs est indifférent entre jouer
sa stratégie mixte ou jouer l’une de ses stratégies pures support de sa stratégie mixte.
Les gains attendus sont les mêmes.
COMMENT CALCULER EqNash EN STRATEGIES MIXTES
Joueur 2
EXEMPLE1
a b
Jeux de coordination Joueur 1 a 2,2 0,0
p
p : probabilité que le joueur 1 joue a b 0,0 1,1
q : probabilité que le joueur 2 joue a 1-p
q 1-q
Si p,q {0,1} on retrouve les 2 EN en stratégies pures (a,a) et (b,b).
Situation d’équilibre mixte est le couple (p,q) tel que le gain ramené par a est le même
ramené par b (pour les 2 joueurs)
Joueur 1:
Si 0 p 1 alors le joueur 1 doit être indifférent
Pour a on a le gain : ga= 2q+0(1-q)= 2q ( espérance math. Selon le jeu de 2)
Pour b on a le gain : gb= 0q+1(1-q) =1-q ( espérance math. Selon le jeu de 2) ga=2q
Comme c’est indifférent : ga = gb
Donc 2q = 1-q -- q=1/3 gb=1-q
Posons q0=1/3
( si q > 1/3 la réponse du joueur 1 est a car 2*q > 1-q )
( si q < 1/3 la réponse du joueur 1 est b )
1/3 q
Joueur 2: ( jeu est symétrique)
Pour a , le gain : ga= 2p+0(1-p)= 2p ( espérance math. Selon le jeu de 1)
Pour b , le gain : gb= 0p+1(1-p) =1-p ( espérance math. Selon le jeu de 1)
D’où p0=1/3
Représentation graphique :
( si q < 1/3 la réponse du joueur 1 est b p=0)
( si q > 1/3 la réponse du joueur 1 est a p=1)
q
(a,a)
p
(b,b)
( si p > 1/3 la réponse du joueur 1 est a q=1)
( si p < 1/3 la réponse du joueur 1 est b q=0)
Gains:
J1 : U1=p[2*q+ 0*(1-q] + (1-p)[0*q +1*(1-q)]=2pq+(1-p)(1-q) = 3pq-p-q +1
J2 : U2=q[2*p+ 0*(1-p] + (1-q)[0*p +1*(1-p)]=2pq+(1-p)(1-q) = 3pq-p-q +1
En Mixte :
U1* = 3*1/3*1/3 -1/3 -1/3 +1 = 2/3
U2* = 3*1/3*1/3 -1/3 -1/3 +1 = 2/3
EXEMPLE2
La bataille des sexes.
Certains jeux font intervenir une part de coordination et une part de conflit
entre les agents. C’est le cas du jeu de la bataille des sexes suivant :
Un couple veut décider d’une sortie. L’homme préfère aller voir un match de
foot, et la femme préfère aller au théâtre. Pour chacun, être avec l’autre est
plus important que le lieu.
Niveau de sécurité
•Principe:
•Dans les jeux coopératifs on autorise la communication et les accords entre joueurs
avant la partie.
•Tous les messages formulés par un joueur sont transmis sans modification à l'autre
joueur.
•L'évaluation des situations par un joueur n'est pas perturbée par les négociations
préliminaires.