这是 2016 年在 csdn 上发的一篇文章,现在转移过来在首页上挂一段时间。
文章撰写日期:2016-12-27 21:51:06
囚徒困境
囚徒困境的故事讲的是,两个嫌疑犯作案后被警察抓住,分别关在不同的屋子里接受审讯。
警察知道两人有罪,但缺乏足够的证据。
警察告诉每个人:如果两人都抵赖,各判刑一年;如果两人都坦白,各判八年;如果两人中一个坦白而另一个抵赖,坦白的放出去,抵赖的判十年。于是,每个囚徒都面临两种选择:坦白或抵赖。
然而,不管同伙选择什么,每个囚徒的最优选择是坦白:如果同伙抵赖、自己坦白的话放出去,抵赖的话判一年,坦白比不坦白好;如果同伙坦白、自己坦白的话判八年,比起抵赖的判十年,坦白还是比抵赖的好。
结果,两个嫌疑犯都选择坦白,各判刑八年。如果两人都抵赖,各判一年,显然这个结果好。
坦白 | 不坦白 | |
---|---|---|
坦白 | -10, -10 | 0, -20 |
不坦白 | -20, 0 | -2, -2 |
试想,囚徒困境的情况被进行十次。
我们可以合理的设想,假如囚徒第一次被对方指控,那他便很可能在第二次指控对方;相反,如果第一次对方保持沉默,那两人之间便有可能建立起互信的关系,然后你也会保持沉默,导致帕累托最优。
当然,两个囚徒都有类似的想法,他们都在期望建立起良好的互信关系,因此在第一局两人都会保持沉默,第二局亦是如此…
保持沉默是因为他们希望在以后的局中建立起良好的互信关系……
直到第十局,因为这个时候双方之间的互信关系已经没有意义了,因此一定会背叛对方,理由和只有一局的囚徒困境一样。
可是这样的想法合理吗?
既然两人都知道对方会在第十局背叛,那他们便可以在第九局背叛对方,同样,第八局也没有必要保持沉默,第七局亦然,如此类推,纳什均衡是十局都会互相背叛,建立互信关系是没有可能的。
这部分的推论可以算作蜈蚣博弈了,倒推之后,结果便可以在第一局的时候决定。
对于只有一局的囚徒困境,表面上看囚徒对自身利益的追求导致了囚徒困境,其实,囚徒困境的真正原因是:囚犯们在追求自身利益的同时,以更多的损害他人利益为代价。
而在旁观者的角度来看,损人利己与损己利人本质上是一样的,因为它们就像一个硬币的两面,旁观者可以说 A 是人、B 是己,也可以说 A 是己、B 是人。在一方来看是损人利己,而在另一方来看是损己利人,问题的关键是所损的部分和所利的部分哪个更多。
假如第一次都背叛了对方,以后的博弈中会出现互相妥协的情况吧。就都保持沉默
第一次都背叛的话,那对双方都是一种失信的反馈。后面的博弈里每个人如果不背叛对方,那对方也可能背叛导致自己的利益最小化。
如果前几次双方都这么想,后来权衡之后应该都会选取最优解,就是都不说,纳什博弈,就是多次博弈,就不会选择一竿子买卖,就像做生意的时候,熟人可以随意赊账,然后年底还钱,也或者不会随意卖假货给熟人,因为知道未来还有很多次合作。
哈哈,熟人赊账这个例子的前提还是年底会还钱;而囚徒困境里如果一方容忍另一方选择(赊账),那他收到的惩罚会加倍。所以还是赊账惩罚不够大。