论文部分内容阅读
周 洋 韩雪峰
什么是囚徒困境
亚当·斯密讲了这样一个故事:有两个因巨额盗窃而正在服刑的囚犯A和B。区检察官c正在调查一宗悬而未决的银行抢劫案,并且他相信A和B就是罪犯。区检察官c正在计划竞选州长,所以希望A和B认罪,因为这样会在他的记录中增加一项重要的定罪案件。他依靠监狱警卫的帮助,对A和B的牢房进行了突击搜查,发现了隐藏的武器和毒品。他知道可以利用这一信息控告他们犯有藏匿武器与毒品的小罪而使之被判刑,他将A和B隔离起来并分别对他们作出了如下承诺:如果无人坦白银行抢劫,他将以藏匿武器与毒品罪起诉并使两人各被再判2年监禁:如果两人都认罪,则都因银行抢劫罪而被再判5年监禁;如果只有一人坦白并将对方揭发出来,则对坦白者的抢劫银行与藏匿武器与毒品行为不予起诉并释放他,而没有坦白的人则会因抢劫银行与藏匿武器与毒品而被再判20年监禁。那么,这两个囚犯该怎么办呢?从表面上看,他们应该互相合作。如果选择抵赖,他们俩都能得到最好的结果。但他们不得不仔细考虑对方可能采取什么选择。
对囚徒困境的引申与分析
警惕公权力的滥用。在上边的囚徒困境中,区检察官构造了一种情势,使得个人对自己利益的追求会导致对A和B都不利的结果,两个囚徒都会坦白,从而每个人都达到一个双方都认为是差于双方都不坦白的结果。事实上,检察官所构造的这个困境对A和B的激励是如此的强烈,以至于很容易想象A和B被迫承认抢劫银行,甚至即使他们是清白的。我国“文革”中坦白从宽、抗拒从严的政策之所以能使一大批人承认自己的“罪行”,其奥妙即在于此。
个人理性与集体理性的冲突。囚徒困境反映了一个很深刻的问题,这就是个人理性和集体理性的冲突,即理性人的个人理性行为可能导致集体非理性。很显然,A和B双方都抵赖(各判2年)比双方都坦白(各判5年)要好,但是,作为理性人的A和B都想占对方的便宜,结果谁也没占到。
在现实生活中,这种个人理性与集体理性(社会效率)相冲突的事例很多。
利他主义者的囚徒困境。有人认为产生囚徒困境的原因在于:每个局中人只关心自己的利益而对他人的利益漠不关心,为了自利的目的他甚至不惜违背“协议”。因此,解决囚徒困境的答案在于:不要做一个利己主义者。
让我们回忆一下欧·亨利的小说《麦琪的礼物》。主人公是一对新婚小夫妻——吉姆和德拉。圣诞节快到了,双方都惦记着给对方买礼物,吉姆想给德拉买套发卡,因为德拉有一头靓丽的秀发:而德拉则希望给吉姆的祖传金表买表链和表袋。但是,他们的生活比较拮据。于是,吉姆卖掉了心爱的金表,买了一套漂亮发卡:德拉卖掉了心爱的长发,为吉姆的金表买了表链和表袋。出于无私爱心的利他主义行为,结果却使得双方的利益同时受损。
可见,囚徒困境无须受限于利己主义者的假设,只要每个局中人对结果之偏好的全部要求存在着一定的顺序,并且这些偏好是发散的,即使是利他主义者,同样无法避免个体理性与集体理性的矛盾。
破解囚徒困境的解
陷入囚徒困境的人要想达到一个对大家都有效率的结果,就必须运用某种社会的交互作用来抑制个人对自利的追求。本文试着从以下几个方面寻求破解囚徒困境的解。
对囚徒困境的科层式解决办法。所谓对囚徒困境的科层式解决办法是指赋予某个人能够迫使每个博弈方不去采取均衡中那种诱人选择的权力,拥有这种权力的人也就拥有了一种强制性的权威,以促使别人去做本来觉得不符合自身利益的事情,从而使博弈双方的处境都得到改善。
人类的团队生产也面临着类似的囚徒困境,当人们觉得他对群体的贡献无法准确衡量时,他的产量就趋于下降,就像在以前的人民公社制度下和现在的部分国有企业里面,如果大家都好好干,产品生产的多,大家都可以生活的很好,但问题在于:我好好干,你不好好干,我吃亏,你好好干,我不好好干,我占便宜,于是,纳什均衡就是大家都不好好干,都饿肚子。团队生产囚徒困境的科层式解决办法是赋予监督者以不对称于其他成员的权威,监督者的任务是“分配报酬,观察投入品的投入行为以测试或估计它们的边际生产率,以及布置任务并就做什么和如何做给出指导”。这种监督导致了激励机制的变化,它使卸责的人被惩罚,努力生产的人得到奖励。在这里,科层(企业)通过为下属与上级创造激励来重新协调了个人对自我利益的追求与群体效率之间的关系,从而有效地解决了团队生产囚徒困境的难题。
合作与重复博弈。本文上面所讲的囚徒困境都是指“一次性博奕”条件下的困境。在这种条件下,局中人对合作都没有兴趣。可是,如果博奕不是一次性的,而是可以多次重复的博奕,人们就有了合作的可能性,囚徒困境就有可能破解,连续的合作有可能成为重复的囚徒困境的均衡解,这也是博弈论上著名的“大众定理”(Folk Theorem)的含义。
但合作的可能性不是必然性。博弈论的研究表明,要想使合作成为多次博弈的均衡解,博弈的一方(最好是实力更强的一方)必须主动通过可信的承诺,向另一方表示合作的善意,努力把这个善意表达清楚,并传达出去。如果该困境同时涉及多个对手,则要在博弈对手中形成声誉,并用心地维护这个声誉。所以合作是非常困难的。
当事人的感情,信念与信仰。上面的“囚徒困境”只考虑了当事人博弈策略中的利害计算,未考虑当事人的感情、信念和信仰等非理性因素。如果在囚徒困境中加入这些因素,那么即使是一次博弈,博奕结果也会有很大的不同。设想一下,如果被隔离讯问的是一对雌雄大盗,它们彼此深爱着对方,面对检察官构造的囚徒困境时,它们想到的更多的是对方的命运,这种无条件的爱使每一方都宁愿选择抵赖,即使是对方坦白也心甘情愿,当双方都这样做的时候,他们已经成功地摆脱了囚徒困境。
信仰会使他们认为诚实信用会给他带来(较之于不诚实的产出而言)更大的预期产出,或者诚实的价值是他所更看重的,因此,他们会率先采取合作的策略,这样整个决策结构就发生了变化,克服囚徒困境的合作解就有可能出现。
此外,诸如同情心、正义感、愧疚感等非理性因素,都可以在囚徒困境条件下诱导出合作行为。
什么是囚徒困境
亚当·斯密讲了这样一个故事:有两个因巨额盗窃而正在服刑的囚犯A和B。区检察官c正在调查一宗悬而未决的银行抢劫案,并且他相信A和B就是罪犯。区检察官c正在计划竞选州长,所以希望A和B认罪,因为这样会在他的记录中增加一项重要的定罪案件。他依靠监狱警卫的帮助,对A和B的牢房进行了突击搜查,发现了隐藏的武器和毒品。他知道可以利用这一信息控告他们犯有藏匿武器与毒品的小罪而使之被判刑,他将A和B隔离起来并分别对他们作出了如下承诺:如果无人坦白银行抢劫,他将以藏匿武器与毒品罪起诉并使两人各被再判2年监禁:如果两人都认罪,则都因银行抢劫罪而被再判5年监禁;如果只有一人坦白并将对方揭发出来,则对坦白者的抢劫银行与藏匿武器与毒品行为不予起诉并释放他,而没有坦白的人则会因抢劫银行与藏匿武器与毒品而被再判20年监禁。那么,这两个囚犯该怎么办呢?从表面上看,他们应该互相合作。如果选择抵赖,他们俩都能得到最好的结果。但他们不得不仔细考虑对方可能采取什么选择。
对囚徒困境的引申与分析
警惕公权力的滥用。在上边的囚徒困境中,区检察官构造了一种情势,使得个人对自己利益的追求会导致对A和B都不利的结果,两个囚徒都会坦白,从而每个人都达到一个双方都认为是差于双方都不坦白的结果。事实上,检察官所构造的这个困境对A和B的激励是如此的强烈,以至于很容易想象A和B被迫承认抢劫银行,甚至即使他们是清白的。我国“文革”中坦白从宽、抗拒从严的政策之所以能使一大批人承认自己的“罪行”,其奥妙即在于此。
个人理性与集体理性的冲突。囚徒困境反映了一个很深刻的问题,这就是个人理性和集体理性的冲突,即理性人的个人理性行为可能导致集体非理性。很显然,A和B双方都抵赖(各判2年)比双方都坦白(各判5年)要好,但是,作为理性人的A和B都想占对方的便宜,结果谁也没占到。
在现实生活中,这种个人理性与集体理性(社会效率)相冲突的事例很多。
利他主义者的囚徒困境。有人认为产生囚徒困境的原因在于:每个局中人只关心自己的利益而对他人的利益漠不关心,为了自利的目的他甚至不惜违背“协议”。因此,解决囚徒困境的答案在于:不要做一个利己主义者。
让我们回忆一下欧·亨利的小说《麦琪的礼物》。主人公是一对新婚小夫妻——吉姆和德拉。圣诞节快到了,双方都惦记着给对方买礼物,吉姆想给德拉买套发卡,因为德拉有一头靓丽的秀发:而德拉则希望给吉姆的祖传金表买表链和表袋。但是,他们的生活比较拮据。于是,吉姆卖掉了心爱的金表,买了一套漂亮发卡:德拉卖掉了心爱的长发,为吉姆的金表买了表链和表袋。出于无私爱心的利他主义行为,结果却使得双方的利益同时受损。
可见,囚徒困境无须受限于利己主义者的假设,只要每个局中人对结果之偏好的全部要求存在着一定的顺序,并且这些偏好是发散的,即使是利他主义者,同样无法避免个体理性与集体理性的矛盾。
破解囚徒困境的解
陷入囚徒困境的人要想达到一个对大家都有效率的结果,就必须运用某种社会的交互作用来抑制个人对自利的追求。本文试着从以下几个方面寻求破解囚徒困境的解。
对囚徒困境的科层式解决办法。所谓对囚徒困境的科层式解决办法是指赋予某个人能够迫使每个博弈方不去采取均衡中那种诱人选择的权力,拥有这种权力的人也就拥有了一种强制性的权威,以促使别人去做本来觉得不符合自身利益的事情,从而使博弈双方的处境都得到改善。
人类的团队生产也面临着类似的囚徒困境,当人们觉得他对群体的贡献无法准确衡量时,他的产量就趋于下降,就像在以前的人民公社制度下和现在的部分国有企业里面,如果大家都好好干,产品生产的多,大家都可以生活的很好,但问题在于:我好好干,你不好好干,我吃亏,你好好干,我不好好干,我占便宜,于是,纳什均衡就是大家都不好好干,都饿肚子。团队生产囚徒困境的科层式解决办法是赋予监督者以不对称于其他成员的权威,监督者的任务是“分配报酬,观察投入品的投入行为以测试或估计它们的边际生产率,以及布置任务并就做什么和如何做给出指导”。这种监督导致了激励机制的变化,它使卸责的人被惩罚,努力生产的人得到奖励。在这里,科层(企业)通过为下属与上级创造激励来重新协调了个人对自我利益的追求与群体效率之间的关系,从而有效地解决了团队生产囚徒困境的难题。
合作与重复博弈。本文上面所讲的囚徒困境都是指“一次性博奕”条件下的困境。在这种条件下,局中人对合作都没有兴趣。可是,如果博奕不是一次性的,而是可以多次重复的博奕,人们就有了合作的可能性,囚徒困境就有可能破解,连续的合作有可能成为重复的囚徒困境的均衡解,这也是博弈论上著名的“大众定理”(Folk Theorem)的含义。
但合作的可能性不是必然性。博弈论的研究表明,要想使合作成为多次博弈的均衡解,博弈的一方(最好是实力更强的一方)必须主动通过可信的承诺,向另一方表示合作的善意,努力把这个善意表达清楚,并传达出去。如果该困境同时涉及多个对手,则要在博弈对手中形成声誉,并用心地维护这个声誉。所以合作是非常困难的。
当事人的感情,信念与信仰。上面的“囚徒困境”只考虑了当事人博弈策略中的利害计算,未考虑当事人的感情、信念和信仰等非理性因素。如果在囚徒困境中加入这些因素,那么即使是一次博弈,博奕结果也会有很大的不同。设想一下,如果被隔离讯问的是一对雌雄大盗,它们彼此深爱着对方,面对检察官构造的囚徒困境时,它们想到的更多的是对方的命运,这种无条件的爱使每一方都宁愿选择抵赖,即使是对方坦白也心甘情愿,当双方都这样做的时候,他们已经成功地摆脱了囚徒困境。
信仰会使他们认为诚实信用会给他带来(较之于不诚实的产出而言)更大的预期产出,或者诚实的价值是他所更看重的,因此,他们会率先采取合作的策略,这样整个决策结构就发生了变化,克服囚徒困境的合作解就有可能出现。
此外,诸如同情心、正义感、愧疚感等非理性因素,都可以在囚徒困境条件下诱导出合作行为。