La decencia es un equilibrio de Nash

Hemeroteca Politikon - Expectativas racionales

La decencia es un equilibrio de Nash

20 Jul, 2011 - Ramón Mateo

Me pregunta un amigo si considero que las emociones influyen en la moral. Considero que la pregunta está mal planteada. Desde luego, no es que sea nadie para sentar cátedra, ni tampoco lo pretendo. No obstante, quiérase que no, esta es una cuestión que desde tiempo atrás ha generado más de un quebradero de cabeza a los economistas. Ahora bien, los avances que han tenido lugar como resultado de los intentos de aclarar ésta y otras preguntas relacionadas han sido de enorme valía no sólo para la economía, sino también para las ciencias en general. Qué decir si no de la biología, que desde la perspectiva de los estudios evolutivos o de la etología animal, ha visto su repertorio analítico enormemente enriquecido gracias a las herramientas que proporciona la teoría de juegos. En todo caso, en lo que respecta a esta argumentación intentaré ser lo más claro posible. Siento, por otra parte, que pecaré de falta de brevedad. No seáis duros. Ni que decir tiene
que no pretendo que sea la tónica general de todas las entradas; pero como se trata, en esencia, de responder a un amigo, creo que la ocasión bien merece hacer una excepción. Así pues, comencemos.

Las emociones son algo racional

Las emociones no están en el corazón, están en el cerebro. Aunque esta afirmación pueda parecer trivial, la conocida imagen lírica encierra un pensamiento que se encuentra muy extendido, a saber, el de la supuesta dicotomía entre las emociones (instintivas, espontáneas, irracionales) por un lado, y los pensamientos (reflexivos, premeditados, racionales) por otro. Hay que decir que esta diferencia es falsa, es más, no existe. Las emociones, tanto como nuestros pensamientos, son el resultado de la actividad de nuestro cerebro. Lejos de constituir alguna clase de residuo procedente de etapas primitivas de nuestra evolución, el desarrollo de una capacidad emocional tan compleja como la del ser humano ha sido una de sus ventajas adaptativas más notorias. Como ejemplo, sirvan algunas de las funciones que Francisco Mora en El reloj de la sabiduría (2002) enumera sobre la función de las emociones. Así, las emociones sirven «para
defendernos de estímulos nocivos (enemigos) o aproximarnos a estímulos placenteros o recompensantes (agua, comida, sexo y juego)», o también para «almacenar y evocar memorias de forma más efectiva», además de «desempeñar un papel importante en el proceso de razonamiento y en la toma de decisiones, especialmente en aquellas relacionada con la persona y su entorno más inmediato».

En definitiva, las emociones son, como decíamos, el resultado de un proceso evolutivo adaptativo. No nos sentimos saciados porque comemos; es porque comemos por lo que nos sentimos saciados. Ni tampoco nos reproducimos como el resultado inevitable de un sexo que se busca por placentero; es porque el sexo es el mecanismo que garantiza la reproducción por lo que nos resulta placentero. No es que nos gusten los alimentos azucarados porque son dulces; es porque éstos contienen importantes fuentes de carbohidratos necesarios para nuestro organismo por lo que nos saben dulces y, por tanto, nos gustan. Y así podríamos continuar con todos los ejemplos que quisiéramos. No obstante, para entenderlo mejor, ¿qué os parece si utilizamos la teoría de juegos?

La honestidad no siempre es la mejor opción

Supongamos una sociedad en la que las personas en sus relaciones pueden adoptar dos tipos de actitudes, ser honestos o aprovechados. Cuando dos personas honestas se juntan, ambos salen ganando. Así un niño entrega una moneda al tendero a cambio de una bolsa de chucherías, de forma que ambos obtienen lo que quieren. No obstante, todos sienten la tentación de aprovecharse de la buena voluntad de su vecino. De hecho, el tendero podría quedarse con la moneda del niño y no darle su bolsa de chucherías, bien aduciendo cualquier excusa, bien mandándole a llorar a su casa. A fin de cuentas, ¿qué puede hacer el niño para impedírselo? Al mismo tiempo, el niño podría tratar de robar las chucherías en vez de pagar por ellas. De todos modos, el tendero es un bobo. Podemos modelizar el planteamiento anterior a través de las estrategias (honesto, aprovechado), y sus pagos asociados, tal y como se muestran en la siguiente tabla:

	Honesto	Aprovechado
Honesto	3, 3	0, 4
Aprovechado	4, 0	2, 2

Efectivamente, se trata de un ejemplo del dilema del prisionero. Como puede verse, únicamente las ganancias que presenta la posibilidad de aprovecharse del vecino provoca que los jugadores terminen en una situación peor a la que llegarían si ambos fuesen honestos. Este resultado se conoce como equilibrio de Nash, concretamente en estrategias puras, es decir, aquellas que son escogidas con seguridad por cada jugador.

No obstante, las características de los jugadores o del entorno en el que se realiza el juego pueden alterar los pagos que deja cada estrategia. De hecho, estos cambios pueden incluso provocar un desplazamiento hacia un nuevo equilibrio, o en otras palabras, que pasásemos a jugar un nuevo juego completamente distinto. Consideremos la siguiente situación. Ahora, cuando ambos jugadores intentan aprovecharse el uno del otro, el encontronazo provoca una agria discusión entre ellos. Sin embargo, si uno de ellos no protesta ante el comportamiento aprovechado del otro, entonces el abusón sale impune. El nuevo juego queda representado en la siguiente tabla:

	Honesto	Aprovechado
Honesto	3, 3	0, 4
Aprovechado	4, 0	-2, -2

En esta ocasión, nos encontramos ante un ejemplo del juego del gallina. A diferencia del caso anterior, ahora tenemos dos equilibrios de Nash, correspondientes al resultado en el que uno de los jugadores se aprovecha sin que el otro proteste. ¿Qué equilibrio surgirá en la práctica? No podemos saberlo; en todo caso, dependerá de la configuración de cada caso concreto. No obstante, podemos hacer algunas estimaciones dando un paso más en la noción del equilibrio de Nash, en concreto, analizando las estrategias mixtas de los jugadores. Una estrategia mixta, por decirlo de alguna manera, es la que escoge un jugador de forma aleatoria, como sería el caso de una persona que antes de reunirse con un vecino lanzara una moneda a cara o cruz para determinar si debe ser honesto o aprovechado. O también el caso de una persona un tanto volátil que trata a los demás según el humor con el que se haya despertado. Del
mismo modo, cuando tratamos de las estrategias que pueden adoptar distintos individuos de una misma población, esta probabilidad puede interpretarse como el porcentaje de individuos que habría de adoptar cada estrategia para que se alcanzase un equilibrio de Nash. Así, con los datos de la tabla anterior podemos saber que si 2/3 de la población decide ser honesta mientras que el 1/3 restante decide aprovecharse se alcanzará un equilibrio. A la inversa, si 1/3 de la población se aferra a su honestidad frente a 2/3 de población aprovechada, este resultado también será un equilibrio. Qué resultado se alcanzará depende, como antes, de las características de la población y del juego en cada caso concreto. No obstante, el análisis de las estrategias mixtas permite ampliar nuestra gama de escenarios posibles al tomar en consideración que no siempre los resultados extremos son los únicos que pueden perpetuarse en el tiempo.

Prosigamos. Supongamos que avanzamos un poco más. Nuestros jugadores ahora experimentan una variedad de emociones algo más extensa, de forma que, ahora, cuando un jugador intenta aprovecharse el otro reaccionará reprendiéndole públicamente, algo que no resulta demasiado agradable para el abusón que, a pesar de ser un aprovechado, también siente vergüenza cuando le echan sus miserias en cara. Sobre todo cuando todos se las echan en cara. En esta nueva situación aprovecharse ya no resulta tan tentador, aunque sigue siendo mejor que terminar en una trifulca entre dos aprovechados. De esta forma, puede verse como el hecho de introducir una amenaza de represalias ante los comportamientos deshonestos ha provocado que la honestidad sea el resultado en el que no sólo todos salen ganando, sino que además, sea el resultado preferido por todos, como se aprecia en la siguiente tabla:

	Honesto	Aprovechado
Honesto	3, 3	-1, 1
Aprovechado	1, -1	-2, -2

¿Qué podemos sacar como conclusión hasta ahora? Que las emociones, tanto como los caracteres físicos, culturales o tecnológicos modifican la reacción de los jugadores entre sí y frente al entorno y, por tanto, las condiciones necesarias para alcanzar un equilibrio de Nash, hasta el punto de que dichos cambios pueden propiciar cambios en el tipo de juego que se desarrolle. De hecho, si la guerra es un juego que puede verse a través del modelo del dilema del prisionero, el desarrollo de armas atómicas de una capacidad destructiva cada vez mayor propia que, al final, la no cooperación (es decir, entrar en guerra) supone la autodestrucción asegurada de los dos jugadores, de forma que de manera natural la cooperación termina por convertirse en el equilibrio de Nash.

Como nota adicional, uno no puede dejar de pensar en el imperativo categórico de Kant, qué básicamente establece que es racional hacer lo que te gustaría que todo el mundo hiciera. Si fuera cierto, sería racional cooperar en el dilema del prisionero, pero en el primer ejemplo hemos visto que no es así. De hecho, de ser así, en el dilema del prisionero todos los jugadores racionales escogerían ser honestos, porque sería la mejor estrategia si todo el mundo la escogiera. Pero, todo sea dicho, hacerse ilusiones nunca es racional.

En busca de la mejor estrategia

Hasta el momento hemos visto que, siguiendo nuestra temática, las emociones constituyen caracteres adaptativos resultado de un proceso de selección, sea éste natural o cultural. No obstante, en los ejemplos descritos, los jugadores participaban en el juego sólo una vez. ¿Qué sucedería si los jugadores supiesen que van a jugar el mismo juego una vez tras otra, o mejor dicho, que van a jugarlo de forma indefinida? A fin de cuentas, aunque hemos establecido que la aparición de mutaciones (nuevos caracteres, inclusive las emociones) pueden a la larga alterar la estructura del juego, los jugadores no saben cuando sucederá. Al tratarse ahora de un juego repetido indefinidamente, las estrategias que puede adoptar cada jugador no sólo se referirán a qué hacer en la primera etapa, sino también en todas las restantes. Naturalmente, la respuesta no tiene por qué ser homogénea. De hecho, un jugador puede optar por ser honesto en la primera etapa y deshonesto en
todas las siguientes; o ser un aprovechado en todas las etapas; o hacer en cada etapa lo mismo que el otro jugador hizo en la etapa anterior, o lo contrario; o hacer la jugada que hasta el momento haya sido elegida más frecuentemente por el otro jugador con una probabilidad del 50%, o intentar aprovecharse con otro 50%, etc. En definitiva, tenemos a nuestra disposición una infinidad de estrategias, tanto puras como mixtas, para cada agente en cada etapa.

¿Qué estrategias escogerán los agentes? No podemos saberlo; sin embargo, podemos hacernos alguna idea sobre qué condiciones deberán cumplir. A fin de cuentas, parece intuitivo suponer que, a pesar de ser factibles, no todas las estrategias disponibles son igual de realizables, ni tampoco igual de efectivas. En principio, parece lógico pensar que los jugadores tratarán de elegir las estrategias que estando a su alcance les reporten un pago mayor. De esta forma, podríamos observar cómo una estrategia exitosa, etapa tras etapa, es adoptada por cada vez un mayor número de jugadores hasta alcanzar una suerte de equilibrio dinámico. Ahora bien, ¿cómo podemos garantizar que en el momento en el que una estrategia exitosa comienza a extenderse no aparecerá otra estrategia que la supere? De suceder así, no podríamos garantizar que nuestra población alcanzase ningún tipo de equilibrio. Salvo, claro está, que la mejor respuesta ante una estrategia exitosa sea ella misma. Es esta
propiedad la que caracteriza a las estrategias evolutivamente estables (EEE). Cónstese que no todos los juegos dan lugar a la aparición de EEE (el juego de piedra-papel-tijera, en el que las estrategias se suceden de forma cícicla, es prueba de ello).

Alrededor de 1980, el economista Robert Axelrod anunció la apertura de un torneo para evaluar a través de simulaciones por ordenador la aptitud de diferentes estrategias en el juego del dilema del prisionero repitido indefinidamente (que, cónstese, es un juego distinto al propio dilema del prisionero). En la ronda de prueba preliminar, contra todo pronóstico, la estrategia que cosechó mejores resultados fue una denominada tit-for-tat (que podemos traducir como toma y daca, o donde las dan las toman), enviada por el psicólogo Anatol Rapoport. Digo contra todo pronóstico porque, frente a una gama de estrategias tan brillantes como rebuscadas, tit-for-tat sorprendía por su sencillez. Esta estrategía consistía simplemente en cooperar en la primera ronda y, a partir de ahí, imitar en cada ronda lo que el otro jugador hubiese hecho en la ronda anterior. Nada más. A pesar de ello, tit-for-tat poseía ciertas características
deseables que, en mayor o menor medida, se encontraron en el resto de estrategias exitosas. Entre estas propiedades, destaca el hecho de que tanto tit-for-tat como el resto de estrategias ganadoras comenzaban cooperando en la primera ronda, es decir, eran decentes. A su vez, otra propiedad de tit-for-tat era su capacidad de castigar rápidamente las defecciones del otro jugador, es decir, era vengativa. Al mismo tiempo, este castigo no se prolongaba lo suficiente como para echar al traste cualquier oportunidad de recuperar la cooperación, de ahí que tit-for-tat fuese una estrategia indulgente. Por último, su sencillez hacía que fuese fácilmente identificable por el resto de jugadores, es decir, era predecible. Estas propiedades (ser decente, vengativa, indulgente y predecible) fueron, por lo general, observadas de una forma u otra en toda las estrategias ganadoras. La continuación del torneo a través de una segunda ronda confirmó en buena medida
los resultados precedentes.

¿Quiere decir ésto que deberíamos basar nuestra conducta moral en la reciprocidad tal y como parece indicar el éxito de la estrategia tit-for-tat? Aunque Axelrod cree que sí, no tan rápido. A fin de cuentas, tit-for-tat fue la estrategia que cosechó mejores resultados dadas las estrategias con las que le tocó competir en cada ronda del torneo, pero no fue la única que sobrevivió. De hecho, hay que tener en cuenta que no cooperar nunca también es un EEE; es más, no cosechó para nada malos resultados. A pesar de todo, en mi opinión, considero que el principal logro de Axelrod consistió en demostrar cómo, partiendo de una situación de equilibrio en la que todos los jugadores eligen la estrategia no cooperar nunca, una invasión por parte de un grupo reducido de jugadores que cooperan entre sí no sólo lograrán sobrevivir en un entorno tan hostil, sino que, a la larga, crecerán hasta convertirse en la población predominante. La demostración es
importante en tanto quiebra las bases del conocido argumento hobbesiano de «homo homini lupus», es decir, que en el estado de naturaleza la inseguridad es tan abrumadora que la única solución que garantice el orden es la cesión total de los derechos individuales a un órgano depositario de la autoridad legítima de orden absoluto. Hemos visto que no es así; de hecho, incluso en un estado de inseguridad total, la cooperación, poco a poco, puede llegar a prosperar.

Conclusión

Llegados a este punto, estamos en disposición de resolver una pregunta relativamente importante. ¿Qué es lo bueno? Platón equiparaba el bien supremo a la belleza y la bondad, también supremas. Aristóteles lo situaba en la prudencia, que es otra forma de denominar al «justo medio» entre dos extremos de conducta. Los epícureos señalaron la búsqueda del placer como el camino a seguir; algo análogo a los budistas, que apostaron por renunciar a todo deseo para verse privados del sufrimiento. Los escolásticos, obviamente, situaban el bien en las enseñanzas del Evangelio. Los utilitaristas, más adelante, proclamaban que el bien residía en proveer de la mayor felicidad al mayor número posible de personas. Los pragmatistas, por su parte, identificarían lo bueno con lo útil. Otros, en fin, escogerían otros criterios para sus propuestas particulares.

¿Qué nos dice en nuestro caso la teoría de juegos? Aquí vuelve a operar la inversión de razonamiento que adelantamos en el primer apartado. En el juego de la evolución los jugadores pueden optar por distintas estrategias, aunque no todas son iguales; de hecho, algunas resultan más exitosas que otras. Para que una estrategia exitosa se mantenga y prolifere entre la población ésta debe ser evolutivamente estable, o en otras palabras, un jugador la eligiría siempre que se encontrase con otro jugador que también la eligiese. Aquí el proceso de selección opera a un nivel más alto. Ahora son las distintas estrategias evolutivamente estables (EEE) las que compiten entre sí. En concreto, puede esperarse que aquellas que ofrezcan mejores resultados sean más propensas a resistir el paso del tiempo. En esa dinámica, obviamente, el juego no se mantiene estático. Aparecerán mutaciones que hará que algunos jugadores reaccionen mejor ante determinadas estrategias, o que sean capaz de manejar
instrumentos que les reporten mayores pagos en equilibrio; habrá movimientos azarosos que provocarán vaivenes en el desarrollo del juego; o por qué no, habrá jugadores que, de vez en cuando, se comporten de forma irracional.

Como conclusión, podemos sintetizar todo el planteamiento expuesto hasta ahora en el siguiente argumento. Lo que la gente considera deseable hacer, es decir, lo que es moral, es el resultado de un proceso adaptativo. Es decir, la gente que no roba (que es la mayoría) no lo hace porque sea inmoral; más bien, es porque la mayor parte de la gente no roba por lo que hacerlo es inmoral; y esto es así porque, evolutivamente hablando, no robar es una estrategia que domina a robar, es decir, que reporta pagos mayores en un juego repetido indefinidamente. De la misma forma, la gente no mata porque sea inmoral; es porque la gente no mata por lo que es inmoral; y así podríamos continuar. Este es, en esencia, el argumento fundamental.

Queda todavía pendiente la posibilidad de formular una ética independiente, es decir, una ética que pudiese tratar del bien en sentido abstracto. Sin embargo, el argumento que acabamos de ver pone en tela de juicio esta posibilidad. Si como hemos visto lo que consideramos bueno es el resultado de un proceso adaptativo, no lo será menos en lo que refiere a nuestro pensamiento, que como producto del cerebro, no deja de ser el resultado del mismo proceso adaptativo; es decir, todo lo que puedo definir como bueno viene dado por una configuración cerebral resultado de un proceso evolutivo previo. Así, aunque esta perspectiva pudiera incitar temores ante las dudas que levanta sobre la esencia de lo que denominamos libre albedrío, por contra, abre las puertas a la posibilidad, al fin, de una verdadera ética universal.

￩￫ x

7 comentarios

Ramón M. dice:

20 julio, 2011 a las 12:34

Para obtener más información sobre el origen evolutivo de la conducta moral, recomiendo, entre otros, The Evolution of Cooperation, de Robert Axelrod, que ha sido mencionado en esta entrada, basado a su vez en el artículo homónimo que éste escribió junto con el biólogo W.D. Hamilton. También recomiendo Natural Justice, de Ken Binmore, que desarrolla de una forma más extensa y elegante un argumento análogo al de esta entrada. Desde una perspectiva más psicológica, aunque también con clares tintes evolutivos, recomiendo The Moral Landscape, de Sam Harris, en el que se hace hincapié en la posibilidad de una ética universal construida sobre los avances que las ciencias cognitivas nos han aportado sobre la evolución del cerebro. En cualquier caso, espero, como siempre, que os resulte de utilidad.
Maceta dice:

20 julio, 2011 a las 14:38

Tu primer post ha sido impresionantemente bueno e interesante…….
La decencia es un equilibrio de Nash | Noticias - d2.com.es dice:

20 julio, 2011 a las 20:25

[…] » noticia original […]
Ramón M. dice:

20 julio, 2011 a las 21:51

@Maceta,

Hombre, no creo que sea para tanto :). En cualquier caso, muchas gracias. Espero ser capaz de mantener el nivel en próximas entradas (aunque, eso sí, con algo más de brevedad, todo sea dicho).
Maceta dice:

20 julio, 2011 a las 23:32

Para ti no es para tanto, pero para mi ha sido muy agradable descubrir lo que aquí pone. Me ha parecido fascinante. Eso sí, espero que sigas en la misma linea y que sigas sorprendiendome de igual manera. Difícil lo tienes, pero bueno, ahí queda el cumplido 🙂
Carlos Jerez dice:

21 julio, 2011 a las 13:05

Me ha encantado, sobretodo lo del torneo de Axelrod.
Ramón M. dice:

22 julio, 2011 a las 11:12

@Maceta,

Me alegro profundamente. De hecho, no podía esperar más a la hora de escribir que suscitar de veras vuestro interés. De ser así, no puedo pedir nada más. Espero, como decía, estar a la altura en próximas entradas 🙂

@Carlos Jerez,

Ahora que lo mencionas, estaría bien aclarar algo sobre los resultados del torneo de Axelrod. Como decía, tit-for-tat fue la estrategia que cosechó mejores resultados tanto en la ronda preliminar como en las siguientes fases del torneo; no obstante, no fue la única que sobrevivió. Axelrod pretendía que el torneo reflejase pautas de evolución biológica, y por eso estableció en sus reglas que los pagos positivos que cada estrategia cosechase se considerasen una suerte de tasa de reproducción. Así, los pagos positivos reflejaban cómo una estrategia proliferaba en cada ronda sucesiva, mientras que los pagos negativos reflejaban cómo una estrategia se extinguía. En particular, cada estrategia podían identificarse con poblaciones que utilizaban cada una de las distintas estrategias (por ejemplo, por su dotación genética particular).

Como decía, tit-for-tat fue la estrategia que cosechó mejores resultados entre otras seis estrategias que sobrevivieron al final de la simulación. A pesar de todo, como indicaba más arriba, las otras estrategias exitosas compartían en buena medida ciertas características con tit-for-tat (ser decentes, vengativas, indulgentes y predecibles) que muy probablemente se encontraban entre las razones de su éxito (el propio Axelrod demostró formalmente alguna de estas condiciones).

Por tanto, la aclaración más pertinente, siendo estrictos, es que en la ronda preliminar tit-for-tat no fue la mejor estrategia. De hecho, lo más correcto sería decir que al final de la simulación se obtuvo una estrategia mixta evolutivamente estable (EMEE) en la que se jugaba tit-for-tat con probabilidad de 1/6; o en otras palabras, se alcanzó un equilibrio en el que 1/6 de la población estaba compuesto por individuos que jugaban la estrategia tit-for-tat, teniendo presente que éstos eran los que, como media en todo el proceso evolutivo, cosechaban a la larga los mejores resultados.

Comments are closed.

Comments RSS Feed