Vous êtes sur la page 1sur 30

Intelligence Artificielle APPRENTISSAGE - SMA

IAD: Résolution Des Problèmes par les


interactions
SMA (Théorie des Jeux)
Que sont les systèmes multi-agents?

 Un système multi-agent contient un nombre d'agents qui:


• peuvent interagir par la communication;
• sont capables d'agir dans un environnement;
• peuvent avoir différentes «sphères d'influence» (qui peuvent
coïncider); et
• seront liés par d'autres relations (organisationnelles).

 Nous verrons comment les agents décident et comment ils


interagissent dans des situations de compétition.
Utilités et préférences

 Hypothèses:
• Supposons que nous n’ayons que deux agents: Ag = {i, j}
• Les agents sont supposés être-intéressés, c'est-à-dire qu'ils ont des préférences
sur comment est l'environnement.
• Soit E = {e1, e2,. . .} est l'ensemble des «résultats» ou « états» pour lequel les
agents ont des préférences.

 On représente les préférences par des fonctions d’utilités, à l’aide de


nombres réels (ℝ):
ui : E → ℝ
uj : E → ℝ

 Les fonctions d'utilité conduisent à des ordres de préférence sur les résultats, par
exemple:
e ≽i e′ s ignifie ui(e) ≥ ui(e′)
e ≻i e′ s ignifie ui(e) > ui(e′)

où e et e‘ sont tous deux des résultats possibles de E


Rencontres multi-agents
 Nous avons besoin d'un modèle de l'environnement dans lequel
ces agents vont agir ...

• les agents chois is s ent simultanément une action à effectuer et comme


cons équence un rés ultat de E s e produira.
• le rés ultat réel dépend de la combinaison d'actions
• par exemple chaque agent n'a que deux actions pos s ibles qu'il peut effectuer:
Ac = {C,D}, où:
• C (“cooperation”) et
• D (“défection”)

 Comportement de l'environnement donné par la fonction de


transformation (ou action conjointe) d'état τ:

τ: Ac x Ac -- E
Action de Action de
l’agent i l’agent j
• Voici une fonction de transformation d'état τ(i, j)

τ(D,D) = e1; τ(D,C) = e2


τ(C,D) = e3 ; τ(C,C) = e4
Cet environnement est sensible aux actions des deux agents.

• Avec cette transformation d'état,

τ(D,D) = e1; τ(D,C) = e1


τ(C,D) = e1; τ(C,C) = e1
aucun agent n’a d’influence dans cet environnement.

• Avec celui-ci, l'environnement est contrôlé par j


τ(D,D) = e1; τ(D,C) = e2
τ(C,D) = e1; τ(C,C) = e2
Action rationnelle
 Supposons que nous ayons le cas où les deux agents peuvent influencer le
résultat, et ils ont les fonctions d’utilités suivantes:
ui(e1)=1 ui(e2)=1 ui(e3)=4 ui(e4)=4
j
uj(e1)=1 uj(e2)=4 uj(e3)=1 uj(e4)=4
C D
• Avec un peu d'abus de notation : C 4 1
ui(D,D) = 1 ui(D,C) = 1 ui(C,D) = 4 ui(C,C) = 4 i 4 4
uj(D,D) = 1 uj(D,C) = 4 uj(C,D) = 1 uj(C,C) = 4
D 4 1
1 1
Peut être représentée par une matrice appelée matrice des gains (ou
utilités)
• Alors les préférences de l’agent i sont (C, C) ≽i (C, D) ≻i (D, C) ≽i (D, D)

• Dans ce cas, que doit faire i?

 i préfère tous les résultats qui découlent de C à tous les résultats qui surviennent
par D.
• Ainsi C est le choix rationnel pour i.
 Comment un agent rationnel se comportera-t-il dans un scénario donné?
La théorie des Jeux fournit les Concepts de la solution
EXEMPLE

Deux passagers entrent dans un bus dans lequel deux adjacentes places sont libres. Chaque
passager doit décider s’il s’assoit ou s’il reste debout. S’asseoir tout seul est plus confortable
que s’asseoir à côté d’une autre personne, qui est plus confortable que de rester debout.

• On suppose que chaque passager prend uniquement soin de son propre confort (égoïsme).

Modélisez alors la situation avec les 2 actions possibles.

– Réponse : Soient A et D les stratégies respectives “Assis” et “Debout” de nos deux


agents. Dès lors pour l’agent ligne Passager1 :

Cas :altruisme
Intelligence Artificielle APPRENTISSAGE - SMA

Théorie des jeux:


(Modèles d’interactions)

Jeux en forme normale

Jeux répétés

Jeux stochastiques

Concepts de la solution
Jeux en forme normale

Un jeu en forme normale est un tuple (n,A1,...,An,R1...,Rn) où


n est le nombre de joueurs

Aj est l’espace d’actions du joueur j, j = 1 . . . n

La fonction de valeur Rj : ×Aj →  définie l’utilité de l’action conjointe pour


le joueur j
a ∈ A = A1 x A2 x … Aj, …, x An,
a=(a1, a2, a3, …, aj, ... , an) : [action conjointe]

Par exemple, admettons qu’il y a deux joueurs, r et c, chacun a deux actions


Ar = Ac = {1, 2} et ils ont joué l’action conjointe: a = (2, 1).
Alors ils obtiennent les valeurs des utilités
r
(récompenses) suivantes r
(valeurs en rouge pour l’action a): 1 2
1 2
1 r11 r12
c11 c12 c 1 c11 ,r11 c12 ,r12
c ou
2 r21 r22 2 c21 ,r21 c22 , r22
c21 c22
Intelligence Artificielle APPRENTISSAGE - SMA

Pieces de monnais
(répété à somme nulle)
Les joueurs r et c cachent chacun une pièce de monnaie affichant pile (1) ou face (2) qu’ils dévoilent
simultanément. Si tous deux ont choisi pile (1,1), ou face (2,2), c’est r qui emporte la pièce de c, sinon
((1,2) ou (2,1)) c’est c gagne la pièce de r.

r
1 2
c 1 -1 , 1 1 , -1
2 1 , -1 -1, 1

Dilemme du Prisonnier
Deux suspects sont arrêtés par la police. Mais les agents n'ont pas assez de preuves pour les
inculper, donc ils les interrogent séparément en leur proposant la même proposition.

« Si tu dénonces ton complice et qu'il ne te dénonce pas, tu seras remis en liberté et l'autre écopera
de 4 ans de prison. Si tu le dénonces et lui aussi, vous écoperez tous les deux de 3 ans de prison. Si
personne ne se dénonce, vous aurez tous deux 1 an de prison. »

r c

1(D) 2(ND)
r 1(D) 3,3 0, 4
2(ND) 4,0 1,1
 Il faut adopter une stratégie
Intelligence Artificielle APPRENTISSAGE - SMA
Types des jeux

• Jeux à somme nulle (strictement compétitifs: Ri+Rj=0) / Jeux à somme non-nulle


(général: Dilemme du Prisonnier)

• Jeux à information parfaite / Jeux à information imparfaite

• Jeux coopératifs (Rj=Rj) / Jeux non-coopératifs

• Jeux à 2 joueurs / Jeux à n joueurs

• Jeux répétés / jeux à coup unique

• Jeux simultanés / jeux avec coups décalés


Stratégies
Supposons qu’un agent j possède m actions possibles {a 1 , …, am}

Une stratégie d’un joueur : spécification d’une action pour ce joueur chaque fois qu’il est susceptible de
jouer.

Une stratégie pure fournit une définition complète de la manière dont un joueur va jouer à un jeu.

Une stratégie mixte est l'attribution d’une probabilité à chaque stratégie pure.

- Une stratégie mixte pour un agent j est une distribution de probabilités j ,


j = {ja1 ,…, jak ,…, jam } avec Σm jak = 1

où jak est une probabilité pour que j choisisse une action a k

- Une stratégie est pure si jak = 1 pour une certaine action ak

- Un profil de stratégies est une collection (stratégie conjointe)

Π = {j |j = 1 . . . n} des stratégies de tous les joueurs

- Un profil réduit de stratégies pour joueur j,

Π−j = Π \{j}, est un profil de stratégies qui contient les stratégies de tous les joueurs hormis
joueur j
Intelligence Artificielle APPRENTISSAGE - SMA

Pareto efficacité

Vilfredo Pareto (économiste italien), l'indice de Pareto est


historiquement en économie une mesure de la distribution des
revenus au sein d'une population. http://fr.wikipedia.org/wiki/Indice_de_Pareto

Un profil de stratégies est dit Pareto optimal si son utilité est maximale pour
tous les joueurs

c-a-d, il n’y a pas d’autre stratégie conjointe qui


pourrait augmenter l’utilité d’un joueur sans
j
diminuer l’utilité d’un autre
C D
C 4, 4 4, 0
i
D 0, 4 1, 1
Intelligence Artificielle APPRENTISSAGE - SMA
Equilibre de Nash
Deux stratégies, 1 de l'agent A et 2 de l'agent B, sont dans un équilibre Nash si:

- dans le cas où l'agent A adopterait 1 l'agent B ne peut pas faire mieux que d'utiliser 2 et
- dans le cas où l'agent B adopterait 2 l'agent A ne peut pas faire mieux que de d'utiliser 1.

Pour généraliser
- Pour un joueur j une stratégie j* est une meilleure réponse (BR pour best response) sur le
profil Π−j si l’utilité espérée du profil (Π−j U { j* }) est maximisée pour j
- Un profil de stratégies Π forme un équilibre de Nash si une déviation unilatérale de Π ne
peut augmenter l’utilité d’aucun joueur

- En d’autres mots, Π est un équilibre de Nash ssi j sa Stratégie j* ∈ Π est une
meilleure réponse à Π−j :
j* ∈ BRj(Π-j) j
j

C D
C 4, 4 4, 0
i
D 0, 4 1, 1
John Nash et la théorie des jeux

Histoire
•Né en 1928
•Thèse de 28 pages à Princeton en 2 ans
•3 articles en 1950 et 1953 (puis rien pendant 30 ans)
•Interné pour schizophrénie à partir de 1960
•Prix Nobel en 1994
•Rupture avec l’équilibre économique

• La « main invisible» du marché conduit à l’équilibre, qui se situe sur le front


de Pareto
• L’équilibre de Nash est issu du mécanisme d’interaction, et n’est pas toujours
optimal
Considérons un jeu où deux joueurs (A et B) ont chacun le choix entre les stratégies S1 et S2.
Les gains des 2 joueurs (connus par ceux-ci) sont représentés dans le tableau suivant sous la
forme (Gain de A ; Gain de B).

Comment devraient se comporter A et B face à ce jeu ?


Essayons de réfléchir en terme de stabilité. Nous désignons les combinaisons de
stratégies par (Stratégie de A ; Stratégie de B).

-Est-ce que (S1 ; S1) est une situation stable ?


Non, car le joueur A aura plutôt intérêt à choisir S2 (afin d’augmenter son gain de 3 à 4),
tandis que le joueur 2 voudra dévier en S2 (pour avoir un gain de 4 plutôt que de 3).
- En (S1 ; S2),
Non, A aura intérêt à choisir la stratégie S2 afin de faire passer son gain de 0 à 1. B n’a
pas intérêt à dévier dans cette situation.
- En (S2 ; S1),
Non, A n’a pas intérêt à dévier, mais B va préférer la stratégie S2 qui lui donne un gain
de 2 plutôt que de 1.
- En (S2 ; S2),
aucun des joueurs n’a intérêt à dévier, il s’agit d'un Equilibre de Nash. Aucun des
joueurs ne peut faire mieux en modifiant unilatéralement sa stratégie.
Intelligence Artificielle APPRENTISSAGE - SMA

Stratégies dominantes
• Une stratégie dominante pour un joueur est une stratégie qui lui donne
toujours un gain supérieur ou égal au gain qu’il peut attendre de toutes ses
autres stratégies (quelles que soient les stratégies des autres joueurs)

– Une stratégie dominante domine toutes les autres stratégies

– si chacun des joueurs possède une stratégie dominante, alors il existe au moins
un équilibre de Nash consistant pour les joueurs à choisir leur stratégie dominante

• un équilibre en stratégies dominantes est un équilibre de Nash (réciproque non


vérifiée)
Intelligence Artificielle APPRENTISSAGE - SMA

Stratégies dominées
• Une stratégie dominée pour un joueur est une stratégie qui lui donne toujours
un gain inférieur à celui d’au moins une des autres stratégies à sa disposition
(quelles que soient les stratégies des autres joueurs).

– Une stratégie peut n'être dominée que par une seule stratégie

• Une stratégie dominée n’est jamais jouée

– Recherche des équilibres de Nash par élimination des stratégies dominées


Intelligence Artificielle APPRENTISSAGE - SMA

On peut également constater que quelque soit la stratégie de B, il sera toujours optimal
pour A de choisir la stratégie S2 (le gain de S2 est toujours supérieur ou égal au gain de
S1) => S2 est la stratégie dominante pour A.

De la même manière, quelle que soit la stratégie de A, B aura toujours intérêt à choisir
S2 => S2 est la stratégie dominante de B.

L'équilibre de ce jeu est donc appelé un équilibre en stratégies dominantes.

On peut remarquer grâce à cet exemple qu’un équilibre de Nash n’est pas forcément
la situation la plus avantageuse pour les deux joueurs.
En effet, si les deux joueurs avaient choisi chacun la stratégie S1, ils auraient tous les
deux eu un gain de 3, ce qui est supérieur à leur gain de la situation (S2 ; S2).
Cependant, ce n’est pas un équilibre car si un joueur considère que l’autre va choisir S1,
il est plus avantageux pour lui de choisir de dévier en S2
Intelligence Artificielle APPRENTISSAGE - SMA

Remarque : une situation dans laquelle tous les joueurs peuvent augmenter leurs
gains est appelée inférieure au sens de Pareto. On dit qu'une situation est optimale
au sens de Pareto s'il n'est pas possible d'augmenter les gains ou le bien-être d'un
individu sans réduire les gains ou le bien-être d'un autre individu.

Dans ce jeu, (S2 ; S2) n’est donc pas optimal au sens de Pareto car il est possible de
trouver une situation (S1 ; S1) qui améliore les gains des deux joueurs. Notez par
contre que toutes les autres situations sont optimales au sens de Pareto. Ce critère
d'optimalité n'est pas nécessairement un critère d'efficacité.
Deux Firmes A et B vendent des produits concurrents et il faut
décider de faire compagne de publicité ou pas.

Voici la matrices des gains

Firme B

Compagne Pas
Compagne
Firme A
Compagne 10 , 5 15 , 0

Pas 6,8 10 , 2
Compagne

Quells sont les stratégies dominantes ?


Dominées ? Equilibre(s) de nash ?
SOLUTION:
la pub est une stratégie dominante pour les 2 firmes donc 2 compagnes est un
équilibre en stratégie dominante

Pas Compagne: est une stratégie dominée pour les 2 firmes

(Compagne,Compgane): est un équilibre de Nash

-Equilibre en Stratégie dominante:


« J’agis au mieux de mes intérêts quoi qu’il fasse mon adversaire »
(et vice-versa)

-Equilibre de Nash:
« J’agis au mieux de mes intérêts étant ce que fait mon adversaire »
(et vice-versa)
Intelligence Artificielle APPRENTISSAGE - SMA

Considérons le jeu suivant :

(S2 ; S1) n’est pas un équilibre de Nash car A a intérêt à choisir S1.
(S1 ; S2) n’est pas un équilibre de Nash car B a intérêt à dévier en S1.
(S1 ; S1) et (S2 ; S2) sont quant à eux des équilibres de Nash, car dans ces situations
un joueur (A ou B) ne peut pas faire mieux en choisissant la stratégie alternative.

Le gain de chaque joueur est au moins aussi bon que le gain qu’il recevrait en
choisissant unilatéralement une autre stratégie.

L’équilibre de Nash strict est un équilibre de Nash où le gain de chaque joueur doit être
strictement meilleur que le gain résultant d’une déviation unilatérale du joueur.
Dans l’exemple ci-dessus, (S1 ; S1) est le seul équilibre de Nash strict.
Equilibre en Stratégie mixte

Une stratégie mixte pour un joueur est une distribution de probabilité sur l’ensemble de
ses stratégies pures :

– Si m stratégies pures possibles, (1, 2, …, i,…,  m-1,  m ) stratégies mixtes telles
Σm i = 1où i est la probabilité de jouer la ième stratégie.

Dans un équilibre en stratégies mixtes, chacun des joueurs est indifférent entre jouer
sa stratégie mixte ou jouer l’une de ses stratégies pures support de sa stratégie mixte.
Les gains attendus sont les mêmes.
COMMENT CALCULER EqNash EN STRATEGIES MIXTES
Joueur 2

EXEMPLE1
a b
Jeux de coordination Joueur 1 a 2,2 0,0
p
p : probabilité que le joueur 1 joue a b 0,0 1,1
q : probabilité que le joueur 2 joue a 1-p
q 1-q
Si p,q  {0,1} on retrouve les 2 EN en stratégies pures (a,a) et (b,b).

Situation d’équilibre mixte est le couple (p,q) tel que le gain ramené par a est le même
ramené par b (pour les 2 joueurs)
Joueur 1:
Si 0 p 1 alors le joueur 1 doit être indifférent
Pour a on a le gain : ga= 2q+0(1-q)= 2q ( espérance math. Selon le jeu de 2)
Pour b on a le gain : gb= 0q+1(1-q) =1-q ( espérance math. Selon le jeu de 2) ga=2q
Comme c’est indifférent : ga = gb
Donc 2q = 1-q -- q=1/3 gb=1-q
Posons q0=1/3
( si q > 1/3 la réponse du joueur 1 est a car 2*q > 1-q )
( si q < 1/3 la réponse du joueur 1 est b )
1/3 q
Joueur 2: ( jeu est symétrique)
Pour a , le gain : ga= 2p+0(1-p)= 2p ( espérance math. Selon le jeu de 1)
Pour b , le gain : gb= 0p+1(1-p) =1-p ( espérance math. Selon le jeu de 1)
D’où p0=1/3
Représentation graphique :
( si q < 1/3 la réponse du joueur 1 est b  p=0)
( si q > 1/3 la réponse du joueur 1 est a  p=1)
q

(a,a)

p
(b,b)
( si p > 1/3 la réponse du joueur 1 est a  q=1)
( si p < 1/3 la réponse du joueur 1 est b  q=0)
Gains:
J1 : U1=p[2*q+ 0*(1-q] + (1-p)[0*q +1*(1-q)]=2pq+(1-p)(1-q) = 3pq-p-q +1
J2 : U2=q[2*p+ 0*(1-p] + (1-q)[0*p +1*(1-p)]=2pq+(1-p)(1-q) = 3pq-p-q +1
En Mixte :
U1* = 3*1/3*1/3 -1/3 -1/3 +1 = 2/3
U2* = 3*1/3*1/3 -1/3 -1/3 +1 = 2/3
EXEMPLE2
La bataille des sexes.
Certains jeux font intervenir une part de coordination et une part de conflit
entre les agents. C’est le cas du jeu de la bataille des sexes suivant :
Un couple veut décider d’une sortie. L’homme préfère aller voir un match de
foot, et la femme préfère aller au théâtre. Pour chacun, être avec l’autre est
plus important que le lieu.
Niveau de sécurité
•Principe:

•Qu’est-ce que j’obtiens au pire?

•Le niveau de sécurité d'une stratégie si pour le joueur i est le gain


minimum que peut apporter cette stratégie quel que soit le choix des
autres joueurs, soit

Pour x : le min de sécurité est 0


Pour y : le min de sécurité est 7

•On définit le niveau de sécurité (ou maxmin) d'un joueur i comme le


niveau de sécurité maximal des stratégies de i.

Ici c’est 7 et c’est la stratégie y qui assure ce niveau de sécurité


Équilibre coopératif

•Dans les jeux coopératifs on autorise la communication et les accords entre joueurs
avant la partie.

•Tous les messages formulés par un joueur sont transmis sans modification à l'autre
joueur.

•Tous les accords entre joueurs seront respectés.

•L'évaluation des situations par un joueur n'est pas perturbée par les négociations
préliminaires.

•Hypothèse de base des jeux coopératifs: les agents ne mentent pas.

•Permet d’obtenir un optimum de Pareto.

Vous aimerez peut-être aussi