Dilema Del Prisionero

DILEMA DEL PRISIONERO Tu vecino pone todas las noches rock duro a un volumen considerable.
Como venganza decides poner a Wagner con la misma intensidad. Al da siguiente el vecino nos castiga con ms rock duro y yo le respondo con ms Wagner. No sera mejor para apaciguar al vecino dejar de poner msica por la noche? Estamos en una situacin conocida en teora de juegos como el Dilema del Prisionero. Veamos la historia que dio origen a su nombre: El dilema del prisionero El fiscal entrevista por separado a dos detenidos, rojo y negro, que han realizado un delito conjuntamente, dicindoles por separado: Tengo suficientes pruebas sobre ambos para enviarlos a la crcel durante un ao. Pero si es usted el nico que confiesa aunque el delito supone diez aos de condena, har un trato con usted y ser condenado a tres meses de prisin, mientras su compaero permanecer diez aos. Pero si confiesan ambos, los dos recibirn una condena de cinco aos. Qu debe hacer el rojo? Debe confesar y confiar en recibir una sentencia breve? Eso es mejor que el ao a que sera condenado si no confesara. Pero veamos. Hay una razn mejor para confesar, pues supongamos que el rojo no confiesa y, que sin saberlo, confiesa el negro. El rojo se arriesga a ser condenado a diez aos! Mejor que eso es confesar y recibir una condena mxima de cinco aos. El negro se encuentra ante el mismo dilema. La consecuencia importante en este caso es el hecho de que cuando ambos actan de forma egosta confesando, ambos terminan en la casilla D con una larga condena. Slo cuando actan de forma altruista acaban en A con una condena breve. En la vida real hay muchas situaciones sociales, econmicas e incluso biolgicas que parecen el dilema del prisionero. La matriz de pagos recoge las situaciones posibles en el dilema del prisionero:
Para que una matriz de pagos represente un dilema del prisionero deben concurrir las siguientes circunstancias: a) Confesar uno slo debe ser mejor para l que no confesar mutuamente. b) No confesar mutuamente debe ser a su vez mejor confesar ambos. c) Confesar ambos debe ser a su vez mejor que no confesar uno slo. d) Cuando cada uno elige una estrategia diferente, confesar y no confesar, la ganancia media entre estas dos estrategias (3 meses y 10 aos) no puede ser mejor que las estrategias de confesar ambos (1 ao). John Forbes Nash encontr que la estrategia estable a la que conduce el dilema del prisionero es terminar en la mutua desercin. Dice que es estable porque elegida por uno de ellos, el otro no puede mejorar su situacin y viceversa. Tcnicamente se llama equilibrio de Nash. Cmo salir del dilema?. Mediante la iteracin del propio Dilema del Prisionero. Vamos a presentar una nueva matriz de pago puntuando cada una de las estrategias y definindolas de manera diferente:
Se observa que T>R>C>P y que (T+P)/2<R Volviendo al problema de la msica y el vecino, cooperar sera quitar la msica y desertar sera ponerla. Los pjaros que se limpian mutuamente el plumaje para liberarse de los caros, estn jugando repetidamente el dilema del prisionero. Para un pjaro es importante eliminar sus caros, pero no puede alcanzar la parte superior de su propia cabeza y necesita un compaero que lo haga por l. Pero este servicio le cuesta tiempo y energa.
Si uno consigue lo mismo con engaos, deshacer de loa caros pero negndose a la reciprocidad, obtendr todos los beneficios sin pagar ningn coste. Est bien cooperar (quitarse mutuamente los caros), pero existe la tentacin de negarse a la reciprocidad. La desercin mutua (la negativa a desparasitarse entre los dos) est mal, pero peor es quitarle los caros al otro y quedarse con los suyos. El Dilema Iterado del Prisionero permite infinidad de estrategias. Por ejemplo cooperar casi siempre y desertar aproximadamente un 10% de las veces. Vamos a simular la experiencia de Axelrod de utilizar distintas estrategias compitiendo entre s. En una serie de combates entre dos estrategias, cada vez que se realiza el Dilema del Prisionero cada uno de los contrincantes obtendr una puntuacin de acuerdo a la anterior matriz de pagos. En 50 partidas la puntuacin mxima ser de 505=500 puntos y la mnima 500=0 puntos. Por ejemplo si ambos cooperaran en todos las disputas el resultado sera de 503=300 puntos. A continuacin vamos a definir las 5 estrategias que intervienen en el primer modelo: E1.- ALEATORIA: Unas veces colabora y otras deserta pero la eal azar. E2.- OJO POR OJO: La primera vez colabora y luego si el contrario colabora, l colabora en la siguiente y si deserta, l deserta en la siguiente. E3.- ALTRUISTA: Siempre colabora, haga lo que haga el contrincante. E4.- EGOSTA: Siempre deserta, haga lo que haga el contrincante. E5.- RENCOROSA: Empieza colaborando pero si el contrario deserta, ya no se lo perdona y deserta siempre. En el modelo se puede elegir la estrategia y observar el resultado de sus 50 combates contra las otras estrategias y contra un contrincante que utilice su misma estrategia. Tambin se muestra una lnea horizontal que indica la ganancia media despus de competir contra las 5 estrategias. Matriz de pagos del dilema del prisionero En el mismo artculo, Hofstadter tambin observ que la matriz de pagos del dilema del prisionero puede, de hecho, escribirse de mltiples formas, siempre que se adhiera al siguiente principio: T>R>C>P Donde T es la tentacin para traicionar (esto es, lo que obtienes cuando desertas y el otro jugador coopera); R es la recompensa por la cooperacin mutua; C es el castigo por la desercin mutua; y P es la paga del primo (esto es, lo que obtienes cuando cooperas y el otro jugador deserta). En el caso del dilema del prisionero, la frmula se cumple: 0 > -0,5 > -6 > -10 (en negativo pues los nmeros corresponden a aos de crcel). Suele tambin cumplirse que (T + C)/2 < R, y esto se requiere en el caso iterado. Las frmulas anteriores aseguran que, independientemente de los nmeros exactos en cada parte de la matriz de pagos, es siempre "mejor" para cada jugador desertar, haga lo que haga el otro. Siguiendo este principio, y simplificando el dilema del prisionero al escenario del cambio de bolsas anterior (o a un juego de dos jugadores tipo Axelrod ver ms abajo), obtendremos la siguiente matriz de pagos cannica para el dilema del prisionero, esto es, la que se suele mostrar en la literatura sobre este tema: Cooperar Desertar Cooperar 3, 3 Desertar 5, -5 -5, 5 -1, -1
En terminologa "ganancia-ganancia" la tabla sera similar a esta:
Cooperar Cooperar ganancia - ganancia Desertar Gallina
Desertar prdida sustancial - ganancia sustancial
ganancia sustancial - prdida sustancial prdida - prdida
Otro importante juego de suma no nula se llama "gallina". En este caso, si tu oponente deserta, te beneficias ms si cooperas, y ste es tu mejor resultado. La desercin mutua es el peor resultado posible (y por ello un equilibrio inestable), mientras que en el dilema del prisionero el peor resultado posible es la cooperacin mientras el otro jugador deserta (as la desercin mutua es un equilibrio estable). En ambos juegos, la "cooperacin mutua" es un equilibrio inestable. Una matriz de pagos tpica sera: Si ambos jugadores cooperan, cada uno obtiene +5. Si uno coopera y el otro deserta, el primero obtiene +1 y el otro +10. Si ambos desertan, cada uno obtiene -20.
Se llama "gallina" por el juego de carreras de coches. Dos jugadores corren el uno hacia el otro hacia una aparente colisin frontal: el primero en desviarse de la trayectoria es el gallina. Ambos jugadores evitan el choque (cooperan) o continan con la trayectoria (desertan). Otro ejemplo se encuentra cuando dos granjeros usan el mismo sistema de irrigacin en sus campos. El sistema puede ser mantenido adecuadamente por una persona, pero ambos granjeros se benefician de ello. Si un granjero no contribuye a su mantenimiento, sigue estando dentro del inters del otro granjero hacerlo, porque se beneficiar haga lo que haga el otro. As, si un granjero puede establecerse como el desertor dominante esto es, si su hbito se vuelve tan enraizado que el otro hace todo el trabajo de mantenimiento seguramente continuar con ese comportamiento. Juego de confianza Un juego de confianza comparte algunas similitudes con el dilema del prisionero. Sin embargo el juego de confianza implica un juego secuencial en que un jugador decide primero su nivel de confianza en el segundo jugador. A mayor confianza mayor es el pago que se genera para el segundo jugador, quien debe despus decidir si si corresponde la confianza con una decisin que es mutuamente benfica para los dos. Un ejemplo clsico es en el que 2 jugadores inician el juego con una dotacin de $10 cada uno. El primer jugador debe decidir cunto de sus $10 enviar al jugador 2. La cantidad enviada se triplica en el camino hacia el jugador 2. Una vez el jugador 2 recibe esa cantidad triplicada, debe decidir cunto retornar al jugador 1. La cantidad retornada no se triplica. Claramente este juego en una sola ronda tiene un equilibrio de Nash de ($10,$10) en el que el jugador 2 debera quedarse con toda la cantidad recibida, y por tanto el jugador 1 no tiene incentivos a enviar dinero al jugador 2. El ptimo social de este juego se logra cuando el jugador enva toda su dotacin al jugador 2 generando una suma total de pagos de 3x$10 + $10 = $40. En trminos de los pagos el juego de confianza tiene una estructura similar al dilema del prisionero, ya que la recompensa por la cooperacin mutua es mayor que la otorgada por la desercin mutua. El juego de confianza repetido es potencialmente muy estable, ya que da la mxima recompensa a jugadores que establecen un hbito de confianza y cooperacin mutua. A pesar de ello, existe el problema de que los jugadores no sean conscientes de que est en su inters cooperar, o que no anticipen la reciprocidad negativa del otro jugador erosionando la reputacin, cooperacin y confianza en el proceso. Amigo o enemigo "Amigo o enemigo" (Friend or Foe) es un juego que se est emitiendo actualmente en el canal de cable y satlite estadounidense Game Show Network. Es un ejemplo del juego del dilema del prisionero probado en personas reales, pero en un entorno artificial. En el concurso, compiten tres pares de personas. Cuando cada pareja es eliminada, juegan a un juego del dilema del prisionero para determinar cmo se reparten sus ganancias. Si ambos cooperan ("amigo"), comparten sus beneficios al 50%. Si uno coopera y el otro deserta ("enemigo"), el desertor se lleva todas las ganancias y el cooperador ninguna. Si ambos desertan, ninguno se lleva nada. Advierta que la matriz de pagos es ligeramente diferente de la estndar dada anteriormente, ya que los pagos de "ambos desertan" y el de "yo coopero y el otro deserta" son idnticos. Esto hace que "ambos desertan" sea un equilibrio neutral, comparado con el dilema del prisionero estndar. Si sabes que tu oponente va a votar "enemigo", entonces tu eleccin no afecta a tus ganancias. En cierto modo, "amigo o enemigo" se encuentra entre el dilema del prisionero y gallina.
La matriz de pagos es:
Si ambos jugadores cooperan, cada uno obtiene +1. Si ambos desertan, cada uno obtiene 0. Si t cooperas y el otro deserta, t te llevas +0 y l +2.
"Amigo o enemigo" es til para alguien que quiera hacer un anlisis del dilema del prisionero aplicado a la vida real. Fjese en que slo se puede jugar una vez, as que todos los conceptos que implican juegos repetidos no se presentan, y no se puede desarrollar la estrategia de la revancha. En "amigo o enemigo", cada jugador puede hacer un comentario para convencer al otro de su amistad antes de hacer la decisin en secreto de cooperar o desertar. Un posible modo de "ganar al sistema" sera decir al rival: "Voy a escoger 'enemigo'. Si confas en que te d la mitad de los beneficios despus, escoge 'amigo'. De otro modo, nos iremos ambos sin nada." Una versin ms egosta de esto sera: "Voy a escoger 'enemigo'. Voy a darte X% y me quedar con (100-X)% del premio total. As que tmalo o djalo, ambos nos llevamos algo o ninguno nos llevamos nada." Ahora el truco se encuentra en minimizar X de modo que el otro concursante siga escogiendo 'amigo'. Bsicamente, debes conocer el umbral en el que los beneficios que obtiene vindote no llevarte nada superan a los que obtiene simplemente llevndose el dinero que has ofrecido. Este acercamiento no ha sido intentado en el juego: es posible que los jueces no lo permitiesen. La "tragedia de los comunes" La llamada "tragedia de los comunes" (de los pastos comunales) es un caso de dilema de prisionero que involucra a muchos agentes y que parece referirse a situaciones reales. En la formulacin que populariz Garrett Harding, cada vecino de una comunidad campesina prefiere alimentar a su ganado en pastos comunales que en otros propios de peor calidad; si el nmero de vecinos que satisface esta preferencia supera cierto lmite, los pastos comunes quedan esquilmados, y es a esto precisamente a lo que conduce la solucin del juego. Para que algn vecino se beneficie de los pastos, otros deben pagar el coste de renunciar, o cada uno debe renunciar en parte; pero el equilibrio est en una situacin donde cada quin utiliza los pastos sin preocuparse de los dems. Trasladando la situacin al esquema de Hofstadter, cada vecino tiene aqu la tentacin T de beneficiarse de los pastos sin pagar el coste; la recompensa R por la cooperacin mutua consiste en negociar cuntos -o en cuantohan de dejar de beneficiarse de los pastos comunes para conservar los pastos en buenas condiciones; el castigo C para todos porque cada uno ceda a la tentacin es la ruina de los pastos; la paga del primo P es la de quien al no aprovecharse de los prados comunes, ha permitido que otros lo hagan. Estas posibilidades se combinan como en el dilema del prisionero bipersonal, haciendo que ante el riesgo de recibir la paga del primo todos cedan a la tentacin de no cooperar y provoquen la situacin de castigo. La misma estructura se puede aplicar a cualquier dinmica de agotamiento de recursos por sobreexplotacin, y parece estar en el origen de la contaminacin ambiental donde una atmsfera no contaminada podra desempear el papel de los pastos comunes, y el automvil privado el papel del ganado-. Se ha interpretado que evitar soluciones subptimas como stas pasa por la privatizacin de los bienes de acceso pblico, limitando en funcin de la renta el nmero de personas que pueden caer en la tentacin. Para el filsofo ingls Derek Parfit los juegos que tienen ms inters para estudiar la lgica del dilema del prisionero son los que dependen de la concurrencia de muchos agentes -como "la tragedia de los comunes"-, y no los juegos bipersonales o los juegos iterados: por un lado, la situacin que los provoca no depende de pagos diseados externamente -por un experimentador o una institucin-, sino de la simple concurrencia de mltiples agentes; por otro, mientras ms sean los participantes, ms irracional es abandonar unilateralmente la solucin subptima que lleva a C ms improbables son los beneficios de no ceder a la tentacin T-, y menos peso tienen las soluciones que se postulan en contextos artificiales de iteracin. En suma, el gran nmero de participantes es para Parfit tanto causa como garanta de que la no cooperacin sea una solucin estable, y la hace permanente e inevitable (para agentes racionales que busquen satisfacer su propio inters).nada mas Paula Casal afirma que la capacidad secular de las comunidades indgenas para mantener en buen estado los pastos comunes desmiente la inevitabilidad de C; "la educacin, las costumbres, los consejos de ancianos u otras instituciones sociales" de esas comunidades seran las barreras que impiden que la tragedia se d en ellas. Parece entonces que el dilema se supera gracias a la paradjica receta que admite Parfit: el propio inters prescribe que, para llegar a soluciones ptimas de Pareto estables, los individuos deben ser educados en teoras morales contrarias a la satisfaccin del propio inters.
Algunos dilemas en la vida real Se puede pensar que la duplicacin del dinero del caso anterior no tiene paralelismo en la vida real. No existen en los mercados de valores inversiones que dupliquen su valor inmediatamente. Sin embargo, s existe una mercanca que se devuelve multiplicada, en muchos casos a todos por igual, a partir de la suma de aportaciones individuales. Esa mercanca es el conocimiento en centros de documentacin pblicos y libres como Internet. El conocimiento es el "dinero" que las personas pueden "invertir" y obtener multiplicado. Una persona puede plasmar en un documento conocimientos que le ha costado meses descubrir. Otra persona podr en tan solo unas horas aprender sobre ese tema. Bastar con leer el documento. Pero no slo eso. La utilidad de la suma del conocimiento de unos y otros ser superior a la suma de las utilidades de los conocimientos independientes. La utilidad del todo es mayor que la utilidad de la suma de las partes. Otro dilema relacionado con el conocimiento es el que se produce en un imaginario equipo de desarrollo de software en el que algunos puestos de trabajo tal vez desaparezcan si el proyecto fracasa. Los programadores pueden optar por ocultar su conocimiento al resto, con la intencin de destacar y asegurar su permanencia en la empresa. Pero si todos se comportasen de esta forma empezaran los problemas: tareas que se repiten innecesariamente, errores cometidos una y otra vez, el proyecto puede convertirse en un caos y tal vez nadie conserve su puesto. Si todos compartiesen todo su conocimiento, el proyecto tendra ms probabilidades de xito, y sera ms probable que se mantuvieran todos los puestos de trabajo. Pero si uno comparte su conocimiento, se podr confiar en que los dems tambin lo harn? Podemos pensar que en general s, ya que los equipos de trabajo en los que la cooperacin sea baja tendrn menos probabilidades de xito y por tanto ms de desaparecer. Si ingresamos en un equipo de trabajo, es probable que el equipo coopere entre s. O tal vez no? Supongamos que el objetivo de cada individuo es no perder el propio puesto de trabajo. Hay dos estrategias razonables: no compartir el conocimiento y tratar de que sea otro el expulsado, o compartirlo y tratar de que ninguno lo sea. Pero si el equipo es grande, la influencia del propio trabajo sobre el xito total puede ser baja. Si nadie coopera por qu cooperar? Y si todos cooperan por qu cooperar? Pero si todos siguen este razonamiento tal vez todos resulten perjudicados.
Conclusiones
Hay tres conclusiones. La primera es acerca del Dilema propiamente es que vale la pena cooperar con otros agentes y simplemente tratar de optimizar sobre sus propios intereses. Esta conclusin es, desde luego, bien conocida en la literatura del Dilema del Prisionero. Lo que quizs no es tan conocido es hasta que punto los beneficios de la cooperacin pueden obtenerse simplemente al considerar en bienestar de otros en la funcin de utilidad. La segunda conclusin es ms general que para decidir entre distintos cursos de accin necesitamos, no solamente juzgar costos y beneficios de nuestras acciones, sino tambin estimar las probabilidades de circunstancias fuera de nuestro control. Hemos visto eso antes, pero debe ser enfatizado una vez ms, no slo porque es importante, sino porque ha sido ampliamente ignorado en la lgica tradicional. La estrategia mostrada en este captulo muestra una forma en que la lgica y la probabilidad se pueden combinar. La tercer conclusin es ms sutil. Es que los clculos en la Teora de Decisiones son un ideal normativo, que algunas veces aproximamos en la vida real usando reglas ms simples basadas en metas y creencias. Esta relacin entre la Teora de Decisiones de nivel superior y las reglas de decisin de nivel inferior es como la relacin entre representaciones lgicas de alto nivel y asociaciones de entrada-salida de bajo nivel. Hemos visto, en otros captulos, que podemos compilar representaciones lgicas de metas y creencias en asociaciones de entrada-salida y, algunas veces, decompilar esas asociaciones en representaciones lgicas. Ms an, pareciera que el pensamiento humano, ambos niveles de pensamiento pueden ocurrir en cascada. Las asociaciones de entrada-salida proponen, con mucha eficiencia, salidas candidatas como respuestas a ciertas entradas, mientras que el razonamiento con metas y creencias supervisa la calidad de esas respuestas. Parece haber una relacin parecida entre Teora de Decisiones y reglas de decisin. Las reglas puede ser ejecutadas eficientemente, pero la Teora de Decisin da resultados de mejor calidad. Como en el caso de las representaciones de nivel superior e inferior, la Teora de Decisiones puede ser usada para supervisar la aplicacin de las reglas y proponer modificaciones de las reglas que deben ser cambias, bien porque hay fallado o porque el mismo ambiente ha cambiado. En su libro, Pensando y Decidiendo, Baron discute, en detalle, relaciones similares entre las formas descriptivas, prescriptivas y normativas de tomar decisiones.
Ejemplos en la vida real -En ciencia poltica, por ejemplo, el escenario del dilema del prisionero se usa a menudo para ilustrar el problema de dos estados involucrados en una carrera armamentstica. Ambos razonarn que tienen dos opciones: o incrementar el gasto militar, o llegar a un acuerdo para reducir su armamento. Ninguno de los dos estados puede estar seguro de que el otro acatar el acuerdo; de este modo, ambos se inclinarn hacia la expansin militar. La irona est en que ambos estados parecen actuar racionalmente, pero el resultado es completamente irracional. -Los pjaros que se limpian mutuamente el plumaje para liberarse de los caros, estn jugando repetidamente el dilema del prisionero. Para un pjaro es importante eliminar sus caros, pero no puede alcanzar la parte superior de su propia cabeza y necesita un compaero que lo haga por l. Pero este servicio le cuesta tiempo y energa. Si uno consigue lo mismo con engaos, deshacerse de los caros pero negndose a la reciprocidad, obtendr todos los beneficios sin pagar ningn coste. Est bien cooperar (quitarse mutuamente los caros), pero existe la tentacin de negarse a la reciprocidad. La desercin mutua (la negativa a desparasitarse entre los dos) est mal, pero peor es quitarle los caros al otro y quedarse con los suyos. -Otro interesante ejemplo tiene que ver con un concepto conocido de las carreras en ciclismo, por ejemplo el Tour de Francia. Considrense dos ciclistas a mitad de carrera, con el pelotn a gran distancia. Los dos ciclistas trabajan a menudo conjuntamente (cooperacin mutua) compartiendo la pesada carga de la posicin delantera, donde no se pueden refugiar del viento. Si ninguno de los ciclistas hace un esfuerzo para permanecer delante, el pelotn les alcanzar rpidamente (desercin mutua). Un ejemplo visto a menudo es que un slo ciclista haga todo el trabajo (coopere), manteniendo a ambos lejos del pelotn. Al final, esto llevar probablemente a una victoria del segundo ciclista (desertor) que ha tenido una carrera fcil en la estela del primer corredor. -La banca tambin se enfrenta hoy a su propio dilema del prisionero: abrir o no abrir el grifo del crdito. Saben que existe un riesgo real de colapso econmico, que si bloquean en exceso el acceso a los crditos, la economa puede paralizarse. Y que si eso sucede, ellos tambin saldrn condenados: les caern sus buenos aos de recesin. Si toda la banca colaborase entre s y ayudase a las empresas con el crdito, la crisis sera ms corta. Pero en el mundo financiero, como en el dilema del prisionero, cada banco se mueve segn su propio inters egosta. Si slo un banco abre la mano, mientras el resto ejerce de chivato tacao, el valiente puede acabar en la quiebra, por generoso. La conclusin terica del dilema del prisionero es una razn por la cual, en muchos pases, se prohben los acuerdos judiciales. A menudo, se aplica precisamente el escenario del dilema del prisionero: est en el inters de ambos sospechosos el confesar y testificar contra el otro prisionero/sospechoso, incluso si ambos son inocentes del supuesto crimen. Se puede decir que, el peor caso se da cuando slo uno de ellos es culpable: no es probable que el inocente confiese, mientras que el culpable tender a confesar y testificar contra el inocente.

Dilema Del Prisionero

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Dilema Del Prisionero

Transféré par

Droits d'auteur :

Formats disponibles

DILEMA DEL PRISIONERO Tu vecino pone todas las noches rock duro a un volumen considerable.

En terminologa "ganancia-ganancia" la tabla sera similar a esta:

Cooperar Cooperar ganancia - ganancia Desertar Gallina

Desertar prdida sustancial - ganancia sustancial

ganancia sustancial - prdida sustancial prdida - prdida

La matriz de pagos es:

Vous aimerez peut-être aussi