论文部分内容阅读
摘 要:如果对一个博弈的类型判断错误,则会得到完全不同的均衡预测。辩诉交易中的博弈与囚徒困境中的博弈完全不同,这种不同表现在两博弈的参与人不同、博弈类型不同、均衡状态不同和结果不同。因此,用囚徒困境博弈模型去分析辩诉交易是不可能得出正确结论的,对辩诉交易结果的预测也是不符合实际的。
关键词:辩诉交易 囚徒困境 博弈 均衡
中图分类号:F011
文献标识码:A
文章编号:1004-4914(2014)05-100-03
辩诉交易,原称“plea bargaining”或“plea negotiation”或“plea agreement”,中国司法界一般理解为检察官和被告人之间进行的一种认罪的讨价还价行为,即在法院开庭审理前作为控诉方的检察官和代表被告人的辩护律师进行协商,以检察官撤销指控、降格指控或者要求法官从轻判处刑罚为条件,来换取被告人的有罪答辩,进而双方达成均可接受的协议。其主要内容包括三方面:一是“罪名的交易”,即检察官以比本因指控的涉嫌罪名要轻的另一罪名来换取被告人认罪;二是“罪数的交易”,当被告人犯有数罪时,为争取其认罪,检察官将本应指控的数个犯罪改为仅指控其中的一个或几个罪行;三是“刑罚的交易”,即检察官允诺建议法官对被告人适用较低幅度的刑罚,以换取被告人的认罪。
基于以上制度内涵,就涉及到被告人即嫌疑犯何去何从的问题。对此,有些学者开始从经济学角度寻求答案。经济学有一个基本前提,即人都是理性的,理性人都是追求自身利益最大化的,也就是人们通常所说的“经济人”。从“经济人”假设前提出发,运用经济学一个比较时新的工具,即“博弈论”,对被告人的选择及其结果给出预测和分析,这就是辩诉交易的经济学解释。但笔者发现,人们通常用博弈论中最简单的“囚徒困境”做为模型。其实囚徒困境中的博弈与辩诉交易中的博弈是完全不同的。这种差异通过详细分析两种博弈模型很容易被发现。
一、囚徒困境博弈
囚徒困境(prisoners’dilemma)是博弈论里最著名的例子。它的创造本身部分地奠定了非合作博弈论的理论基础,而且它还是实际生活中许多现象的一个抽象概括。“囚徒困境”是指:两个嫌疑犯作案后被警察抓住,并被分别关在不同的房间接受审讯,警察知道两人有罪,但缺乏足够的证据,除非两人当中至少有一个人坦白。警察告诉每个人:如果两人都不承认,每人都以轻微的犯罪判刑一年;如果两人都坦白,各判刑8年;如果两人中一人坦白另一人抵赖,坦白的可以被释放,抵赖的判刑10年。这样,每个嫌疑犯均面临四种可能的后果,如表1所示:
表1被称为博弈论中的战略式表述。战略(strategy)是参与人在给定信息集的情况下的行动规则,它规定参与人在什么时候选择什么行动。{1}如:囚犯A在坦白的时候,囚犯B选择什么行动,这也是两嫌疑犯的支付矩阵。所谓支付(pay off),在博弈论中是指在一个特定的战略组合下参与人得到的确定效用水平,或是参与人得到的期望效用水平。{1}简言之,就是参与人得到的好处或回报。如:囚犯A在坦白时,囚犯B坦白会得到什么,抵赖会得到什么。在这个博弈论中,每个囚徒都有两种可能选择的战略,即坦白或抵赖,但支付矩阵说明,每个人都有四种可能的后果。表中第一个数字是对囚犯A的支付,第二个数字是对囚犯B的支付。对每个人来讲,都有四种可能的结果:如两人都坦白,各自获得支付为-8;两人都抵赖,各自支付为-1;如A坦白,B抵赖,A的支付为0(被释放),B的支付为-10;如B坦白,A抵赖,B的支付为0,A的支付为-10。
作为经济人来讲,当然A和B的选择都是坦白,因为对于两人来说,无论他人选择什么战略,自己的最优选择是唯一的,即坦白。这就是所谓占优战略(dominant strategy)。但是这里有一个深刻的问题,很显然,如果两个人都选择抵赖,各自的支付为-1,比都选择坦白,各自的支付为-8要好。这里存在着一个帕累托改进,这说明整体理性优于个体理性。但这个帕累托改进办不到,因为经济人追求的是个人理性,这就是个人理性与集体理性的冲突与矛盾。这个冲突显然对整个社会有好处,而对该集体的成员而言是一件坏事。
通过囚徒A与B的这种博弈,警察得到了事实真相,从而可以有效地惩罚犯罪。
二、辩诉交易博弈
辩诉交易是检察官与嫌疑犯之间的博弈。尽管嫌疑犯可能有多个也可能仅一个,但这一点不影响分析。因此,这里分析仅有一个嫌疑犯的情况。
辩诉交易的典型案例是:一位富翁在家中被害,财物被盗,警察在侦破此案过程中抓住一个嫌疑犯,并在其住处发现了被害人家中的财物,但嫌疑犯否认杀人,只承认盗窃,而警察也没有充足的杀人证据。在审判该嫌疑犯时,控诉方有两种选择:继续侦查,搜集有力的杀人证据,但这比较困难;或者提出与嫌疑犯进行交易,以某种让步促使其主动坦白自己的犯罪事实。为了和上述表1比较,这里也采用战略式表述方式,列出诉方和辩方的支付矩阵,如表2所示:
根据表2,在上述案例中,诉方有两种选择:追查下去,这需要花费大量成本,其支付为-10;如果选择交易,不需再花费成本,其支付为0。对于辩方(嫌疑犯)而言,当诉方追查时,坦白比抵赖要好,坦白可从轻发落,获得支付为-15,否则证据充分时还依然抵赖,获得支付为-20,即获刑比坦白时要重;而当诉方选择交易时,由于诉方并不掌握充分证据,抵赖部分罪行要比完全坦白好。正如本案例,嫌疑犯如果承认杀人事实,可能获刑10年,即支付为-10;如果仅承认盗窃,而警方又没有充分证据时,则仅获刑5年。
结果,通过检察官和嫌疑犯的博弈,检方并不一定能得到事实真相,也不一定能有效地惩罚犯罪。
三、囚徒困境博弈与辩诉交易博弈之差异
一般而言,博弈论的基本要素包括参与人、行动、信息、战略、支付(效用)、结果和均衡。其中,参与人、战略和支付是描述一个博弈所需的最少要素。而参与人、行动和结果统称为博弈规则。博弈分析的目的是使用博弈规则预测均衡或结果。显然,囚徒困境博弈与辩诉交易博弈中有多个要素存在不同。 (一)参与人不同
参与人(player),指一个博弈中的决策主体。他的目的是通过选择行动(或战略)以最大化自己的支付(效用)水平。{1}在囚徒困境博弈中,参与人是两个嫌疑犯,是两囚徒之间的博弈,他们各自揣度对方的行动,并根据自己的期望效用决定自己的行动,其目的都是试图减轻自己的刑罚。而在辩诉交易博弈中,参与人是控诉方和被告人,即诉方与辩方。诉方目的是得到事实真相,惩治犯罪,而辩方目的是怎样隐瞒真相,为自己开脱罪责,逃避惩罚。非常明显,两博弈模型中双方参与人的效用目标完全相反。
(二)博弈类型不同
一般的非合作博弈类型有四种:完全信息静态博弈、完全信息动态博弈、不完全信息静态博弈和不完全信息动态博弈。
囚徒困境博弈属于完全信息静态博弈。完全信息指每一个参与人对所有其他参与人的特征、战略空间及支付函数有准确的信息。这是博弈类型划分的角度之一。角度之二,就是参与人行动是否有先后顺序,据此又可分为静态博弈和动态博弈。静态博弈是指参与人同时选择行动,或虽非同时,但后行动者并不知道前行动者采取了什么具体行动。“同时行动”是一个信息概念,而非时间概念,只要每个参与人在选择自己的行动时不知道其他参与人的选择,即称他们在同时行动。完全信息静态博弈是一种最简单的博弈,囚徒困境博弈又是此类博弈中最典型的一例。很明显,囚犯A和B都知道对方的特征是理性的,战略空间是有限的,坦白或抵赖及支付函数是确定的,因为警察已明确地告知他们在不同战略选择下的支付(效用)。两者都不知对方采取了什么行动。
不同的是,辩诉交易中的博弈则属于完全信息动态博弈。动态博弈指参与人的行动有先后顺序,且后行动者能观察到前行动者所选择的行动。在辩诉交易中,是检察官首先行动并选择交易,这就给嫌疑犯一个信息,即检方并不掌握自己的全部犯罪证据。如果检方完全掌握犯罪证据,则没有必要选择交易。尽管这里的所谓“完全信息”并非“完美信息”,但也足以让嫌疑犯对检方的证据情况有些许了解。
用扩展式表述方法分析两者区别会更一目了然。图1是囚徒困境博弈的扩展式表述:
这是一个静态博弈,B事先并不知道A的选择,当然反之,A事先也不知道B的选择,两者同时行动,分别选择最大化自己支付的战略。
而辩诉交易博弈的扩展式表述则不同,如图2所示:
其实,一旦检方提出进行交易,图2即变为图3,因为显然诉方选择了其一个战略即交易。这是原博弈的一个子博弈。在这种情况下,辩方的选择是显而易见的。
由上述分析可知,囚徒困境中,参与人同时行动,属于静态博弈;而辩诉交易中,诉方先行动,而且其行动被辩方观察到,辩方随后行动,属于动态博弈。
(三)两博弈的均衡状态不同
与上述非合作博弈的四种类型一一对应的均衡状态分别为纳什均衡、子博弈精炼纳什均衡、贝叶斯纳什均衡、精炼贝叶斯纳什均衡。本文只涉及前两种。
囚徒困境型博弈达到的均衡状态是纳什均衡。纳什均衡是指这样一个战略组合,这种战略组合由所有参与人的最优战略组成。换言之,给定别人的战略情况下,没有任何单个参与人有积极性选择其他战略,从而没有任何人有积极性打破这种均衡。囚徒困境博弈仅存在一个纳什均衡,那就是(坦白,坦白)。一般而言,由于每个参与人的支付(效用)是博弈中所有参与人的战略的函数,因此每个参与人的最优战略依赖于所有其他参与人的战略选择。但在一些特殊的博弈中,一个参与人的最优战略很可能并不依赖于其他参与人的战略选择。也就是说,无论其它参与人选择什么战略,他的最优战略是唯一的。这样的最优战略被称为占优战略或占优策略。囚徒困境的例子就是这样,在这个博弈中,每个囚犯都有两种可选择的战略,坦白或抵赖。但是,很明显,无论同伙选择什么战略,每个囚犯的最优战略都是“坦白”。再回头看表1,如囚犯A选择坦白时,囚犯B选择坦白支付为-8,选择抵赖支付为-10,显然坦白比抵赖好。如囚犯A选择抵赖,则囚犯B选择坦白支付为0,选择抵赖支付为-1。同样,坦白比抵赖好。这样,“坦白”是囚犯B的占优战略。类似地,“坦白”也是囚犯A的占优战略。所以(坦白,坦白)是囚徒困境博弈中唯一的占优战略均衡,{2}平狄克和鲁宾菲尔德称之为上策均衡。
再分析辩诉交易博弈。相对于囚徒困境博弈,这是一个序贯博弈,即一个参与人首先采取行动,然后,另一参与人再作出反应。{3}因其属于完全信息动态博弈,所以与之相应的均衡状态是子博弈精炼纳什均衡。再回过头看表2,当发现诉方选择追查时,辩方选择坦白(支付为-15),优于抵赖(支付为-20)。而当诉方选择交易时,辩方选择抵赖(支付为-5),优于坦白(支付为-10)。所以,该博弈存在两个纳什均衡,即(追查,坦白)和(交易,抵赖)。也就是说,辩方并不存在一个无论诉方采取任何行动都是最优的战略,即不存在占优战略,而是辩方依诉方的战略选择相机选择自己的最优行为,所以才出现两个纳什均衡。而且一旦诉方提出辩诉交易,就很明确地说明诉方选择了一个战略,即交易。原博弈就变成一个单结的子博弈,即图3所示的子博弈。在这个子博弈上有一个纳什均衡,即(交易,抵赖)。这个纳什均衡被称为子博弈精炼纳什均衡。一个纳什均衡成为精炼纳什均衡,当且仅当参与人的战略在每一个子博弈中构成纳什均衡,即组成精炼纳什均衡的战略必须在每一个子博弈中是最优的。如图2,如果诉方想节省资源,提高诉讼效率,必然不会选择追查下去,所以(追查,坦白)不是一个精炼纳什均衡。剔除了这个均衡,(交易,抵赖)是唯一的子博弈精炼纳什均衡。
(四)结果不同
在囚徒困境博弈中,只要两囚徒是理性的,并且明确了对方的战略选择和支付后,自己“坦白”就是唯一最好的选择。所以,(坦白,坦白)是一个占优战略均衡(上策均衡)。警察只要交待对两人不同选择的政策后,往往轻而易举地得到事实真相。
而在辩诉交易中,如果也是共同犯罪,警方(或检方)利用共同犯罪人之间的博弈,也容易得到事实真相,因为坦白是他们唯一的“上策”。其实这是诉方利用了共同犯罪人的“囚徒困境”博弈。但如果是单个人犯罪,诉方与嫌疑犯之间的博弈则完全不同。当诉方提出交易,就会立即传达给嫌疑犯一个信号,即诉方并不掌握确实充分的证据。在理性的促使下,嫌疑犯总会报有侥幸心理,选择抵赖,或是避重就轻,交代一些无关紧要的事实。哪怕警方(或检方)威胁嫌疑犯,比如告诉嫌疑犯“我们已经掌握了你的犯罪证据,接下来要看你的态度,是否配合调查”等等,也无济于事。因为这属于博弈论中的“不可置信威胁”,嫌疑犯(或其律师)非常清楚这不是事实,否则,检方没必要提出交易,他们会根据自己所掌握的证据指控嫌疑犯。
所以,囚徒困境博弈的结果是两嫌疑犯都坦白,而辩诉交易的结果往往是嫌疑犯抵赖,也就是说辩诉交易博弈难以实现诉方的期待效用。
四、结论
通过以上分析可知,囚徒困境博弈与辩诉交易博弈完全不同。如对其类型判断错误就会得出一系列的错误结论。博弈分析的目的是为了预测均衡结果。而对于辩诉交易博弈均衡结果的预测让我们发现,该司法制度并不是人们想象的一个切实可行的、完美的制度安排。它和囚徒困境的均衡结果完全不同。后者容易使警方达到自己的预期效用。而前者,即辩诉交易博弈则恰恰相反。其实,这是不用“经济人”假设和博弈工具分析也能得到的结论。所以,辩诉交易制度源发于美国,最早见于19世纪末,此后人们对此争论了近一个世纪,直到1970年美国联邦最高法院才首肯其合法地位,1974年才对其一般原则和程序有了法律规定。但尽管其拥有了合法外衣,至今对它的意义人们仍褒贬不一,难以达成共同见解。可见,任何制度变迁都不是人们随心所欲的结果,而是基于社会进步的内在吁求及科学论证的。我们在引入这一司法制度时应充分考虑其实际效果,分析其与我国的司法制度安排及法律人文环境是否匹配,否则对我国司法环境的改善不但无益反而有害。
注释:
{1}张维迎.博弈论与信息经济学[M].上海:上海人民出版社,2004
{2}[美]平狄克、鲁宾菲尔德.微观经济学(第四版)[M].北京:中国人民大学出版社,2000
{3}[美]范里安.微观经济学:现代观点(第六版)[M].上海:上海人民出版社,2006
(作者单位:中央司法警官学院,河北保定 071000;作者简介:郝赪,中央司法警官学院副教授,法学博士,研究方向:经济与法)
(责编:若佳)
关键词:辩诉交易 囚徒困境 博弈 均衡
中图分类号:F011
文献标识码:A
文章编号:1004-4914(2014)05-100-03
辩诉交易,原称“plea bargaining”或“plea negotiation”或“plea agreement”,中国司法界一般理解为检察官和被告人之间进行的一种认罪的讨价还价行为,即在法院开庭审理前作为控诉方的检察官和代表被告人的辩护律师进行协商,以检察官撤销指控、降格指控或者要求法官从轻判处刑罚为条件,来换取被告人的有罪答辩,进而双方达成均可接受的协议。其主要内容包括三方面:一是“罪名的交易”,即检察官以比本因指控的涉嫌罪名要轻的另一罪名来换取被告人认罪;二是“罪数的交易”,当被告人犯有数罪时,为争取其认罪,检察官将本应指控的数个犯罪改为仅指控其中的一个或几个罪行;三是“刑罚的交易”,即检察官允诺建议法官对被告人适用较低幅度的刑罚,以换取被告人的认罪。
基于以上制度内涵,就涉及到被告人即嫌疑犯何去何从的问题。对此,有些学者开始从经济学角度寻求答案。经济学有一个基本前提,即人都是理性的,理性人都是追求自身利益最大化的,也就是人们通常所说的“经济人”。从“经济人”假设前提出发,运用经济学一个比较时新的工具,即“博弈论”,对被告人的选择及其结果给出预测和分析,这就是辩诉交易的经济学解释。但笔者发现,人们通常用博弈论中最简单的“囚徒困境”做为模型。其实囚徒困境中的博弈与辩诉交易中的博弈是完全不同的。这种差异通过详细分析两种博弈模型很容易被发现。
一、囚徒困境博弈
囚徒困境(prisoners’dilemma)是博弈论里最著名的例子。它的创造本身部分地奠定了非合作博弈论的理论基础,而且它还是实际生活中许多现象的一个抽象概括。“囚徒困境”是指:两个嫌疑犯作案后被警察抓住,并被分别关在不同的房间接受审讯,警察知道两人有罪,但缺乏足够的证据,除非两人当中至少有一个人坦白。警察告诉每个人:如果两人都不承认,每人都以轻微的犯罪判刑一年;如果两人都坦白,各判刑8年;如果两人中一人坦白另一人抵赖,坦白的可以被释放,抵赖的判刑10年。这样,每个嫌疑犯均面临四种可能的后果,如表1所示:
表1被称为博弈论中的战略式表述。战略(strategy)是参与人在给定信息集的情况下的行动规则,它规定参与人在什么时候选择什么行动。{1}如:囚犯A在坦白的时候,囚犯B选择什么行动,这也是两嫌疑犯的支付矩阵。所谓支付(pay off),在博弈论中是指在一个特定的战略组合下参与人得到的确定效用水平,或是参与人得到的期望效用水平。{1}简言之,就是参与人得到的好处或回报。如:囚犯A在坦白时,囚犯B坦白会得到什么,抵赖会得到什么。在这个博弈论中,每个囚徒都有两种可能选择的战略,即坦白或抵赖,但支付矩阵说明,每个人都有四种可能的后果。表中第一个数字是对囚犯A的支付,第二个数字是对囚犯B的支付。对每个人来讲,都有四种可能的结果:如两人都坦白,各自获得支付为-8;两人都抵赖,各自支付为-1;如A坦白,B抵赖,A的支付为0(被释放),B的支付为-10;如B坦白,A抵赖,B的支付为0,A的支付为-10。
作为经济人来讲,当然A和B的选择都是坦白,因为对于两人来说,无论他人选择什么战略,自己的最优选择是唯一的,即坦白。这就是所谓占优战略(dominant strategy)。但是这里有一个深刻的问题,很显然,如果两个人都选择抵赖,各自的支付为-1,比都选择坦白,各自的支付为-8要好。这里存在着一个帕累托改进,这说明整体理性优于个体理性。但这个帕累托改进办不到,因为经济人追求的是个人理性,这就是个人理性与集体理性的冲突与矛盾。这个冲突显然对整个社会有好处,而对该集体的成员而言是一件坏事。
通过囚徒A与B的这种博弈,警察得到了事实真相,从而可以有效地惩罚犯罪。
二、辩诉交易博弈
辩诉交易是检察官与嫌疑犯之间的博弈。尽管嫌疑犯可能有多个也可能仅一个,但这一点不影响分析。因此,这里分析仅有一个嫌疑犯的情况。
辩诉交易的典型案例是:一位富翁在家中被害,财物被盗,警察在侦破此案过程中抓住一个嫌疑犯,并在其住处发现了被害人家中的财物,但嫌疑犯否认杀人,只承认盗窃,而警察也没有充足的杀人证据。在审判该嫌疑犯时,控诉方有两种选择:继续侦查,搜集有力的杀人证据,但这比较困难;或者提出与嫌疑犯进行交易,以某种让步促使其主动坦白自己的犯罪事实。为了和上述表1比较,这里也采用战略式表述方式,列出诉方和辩方的支付矩阵,如表2所示:
根据表2,在上述案例中,诉方有两种选择:追查下去,这需要花费大量成本,其支付为-10;如果选择交易,不需再花费成本,其支付为0。对于辩方(嫌疑犯)而言,当诉方追查时,坦白比抵赖要好,坦白可从轻发落,获得支付为-15,否则证据充分时还依然抵赖,获得支付为-20,即获刑比坦白时要重;而当诉方选择交易时,由于诉方并不掌握充分证据,抵赖部分罪行要比完全坦白好。正如本案例,嫌疑犯如果承认杀人事实,可能获刑10年,即支付为-10;如果仅承认盗窃,而警方又没有充分证据时,则仅获刑5年。
结果,通过检察官和嫌疑犯的博弈,检方并不一定能得到事实真相,也不一定能有效地惩罚犯罪。
三、囚徒困境博弈与辩诉交易博弈之差异
一般而言,博弈论的基本要素包括参与人、行动、信息、战略、支付(效用)、结果和均衡。其中,参与人、战略和支付是描述一个博弈所需的最少要素。而参与人、行动和结果统称为博弈规则。博弈分析的目的是使用博弈规则预测均衡或结果。显然,囚徒困境博弈与辩诉交易博弈中有多个要素存在不同。 (一)参与人不同
参与人(player),指一个博弈中的决策主体。他的目的是通过选择行动(或战略)以最大化自己的支付(效用)水平。{1}在囚徒困境博弈中,参与人是两个嫌疑犯,是两囚徒之间的博弈,他们各自揣度对方的行动,并根据自己的期望效用决定自己的行动,其目的都是试图减轻自己的刑罚。而在辩诉交易博弈中,参与人是控诉方和被告人,即诉方与辩方。诉方目的是得到事实真相,惩治犯罪,而辩方目的是怎样隐瞒真相,为自己开脱罪责,逃避惩罚。非常明显,两博弈模型中双方参与人的效用目标完全相反。
(二)博弈类型不同
一般的非合作博弈类型有四种:完全信息静态博弈、完全信息动态博弈、不完全信息静态博弈和不完全信息动态博弈。
囚徒困境博弈属于完全信息静态博弈。完全信息指每一个参与人对所有其他参与人的特征、战略空间及支付函数有准确的信息。这是博弈类型划分的角度之一。角度之二,就是参与人行动是否有先后顺序,据此又可分为静态博弈和动态博弈。静态博弈是指参与人同时选择行动,或虽非同时,但后行动者并不知道前行动者采取了什么具体行动。“同时行动”是一个信息概念,而非时间概念,只要每个参与人在选择自己的行动时不知道其他参与人的选择,即称他们在同时行动。完全信息静态博弈是一种最简单的博弈,囚徒困境博弈又是此类博弈中最典型的一例。很明显,囚犯A和B都知道对方的特征是理性的,战略空间是有限的,坦白或抵赖及支付函数是确定的,因为警察已明确地告知他们在不同战略选择下的支付(效用)。两者都不知对方采取了什么行动。
不同的是,辩诉交易中的博弈则属于完全信息动态博弈。动态博弈指参与人的行动有先后顺序,且后行动者能观察到前行动者所选择的行动。在辩诉交易中,是检察官首先行动并选择交易,这就给嫌疑犯一个信息,即检方并不掌握自己的全部犯罪证据。如果检方完全掌握犯罪证据,则没有必要选择交易。尽管这里的所谓“完全信息”并非“完美信息”,但也足以让嫌疑犯对检方的证据情况有些许了解。
用扩展式表述方法分析两者区别会更一目了然。图1是囚徒困境博弈的扩展式表述:
这是一个静态博弈,B事先并不知道A的选择,当然反之,A事先也不知道B的选择,两者同时行动,分别选择最大化自己支付的战略。
而辩诉交易博弈的扩展式表述则不同,如图2所示:
其实,一旦检方提出进行交易,图2即变为图3,因为显然诉方选择了其一个战略即交易。这是原博弈的一个子博弈。在这种情况下,辩方的选择是显而易见的。
由上述分析可知,囚徒困境中,参与人同时行动,属于静态博弈;而辩诉交易中,诉方先行动,而且其行动被辩方观察到,辩方随后行动,属于动态博弈。
(三)两博弈的均衡状态不同
与上述非合作博弈的四种类型一一对应的均衡状态分别为纳什均衡、子博弈精炼纳什均衡、贝叶斯纳什均衡、精炼贝叶斯纳什均衡。本文只涉及前两种。
囚徒困境型博弈达到的均衡状态是纳什均衡。纳什均衡是指这样一个战略组合,这种战略组合由所有参与人的最优战略组成。换言之,给定别人的战略情况下,没有任何单个参与人有积极性选择其他战略,从而没有任何人有积极性打破这种均衡。囚徒困境博弈仅存在一个纳什均衡,那就是(坦白,坦白)。一般而言,由于每个参与人的支付(效用)是博弈中所有参与人的战略的函数,因此每个参与人的最优战略依赖于所有其他参与人的战略选择。但在一些特殊的博弈中,一个参与人的最优战略很可能并不依赖于其他参与人的战略选择。也就是说,无论其它参与人选择什么战略,他的最优战略是唯一的。这样的最优战略被称为占优战略或占优策略。囚徒困境的例子就是这样,在这个博弈中,每个囚犯都有两种可选择的战略,坦白或抵赖。但是,很明显,无论同伙选择什么战略,每个囚犯的最优战略都是“坦白”。再回头看表1,如囚犯A选择坦白时,囚犯B选择坦白支付为-8,选择抵赖支付为-10,显然坦白比抵赖好。如囚犯A选择抵赖,则囚犯B选择坦白支付为0,选择抵赖支付为-1。同样,坦白比抵赖好。这样,“坦白”是囚犯B的占优战略。类似地,“坦白”也是囚犯A的占优战略。所以(坦白,坦白)是囚徒困境博弈中唯一的占优战略均衡,{2}平狄克和鲁宾菲尔德称之为上策均衡。
再分析辩诉交易博弈。相对于囚徒困境博弈,这是一个序贯博弈,即一个参与人首先采取行动,然后,另一参与人再作出反应。{3}因其属于完全信息动态博弈,所以与之相应的均衡状态是子博弈精炼纳什均衡。再回过头看表2,当发现诉方选择追查时,辩方选择坦白(支付为-15),优于抵赖(支付为-20)。而当诉方选择交易时,辩方选择抵赖(支付为-5),优于坦白(支付为-10)。所以,该博弈存在两个纳什均衡,即(追查,坦白)和(交易,抵赖)。也就是说,辩方并不存在一个无论诉方采取任何行动都是最优的战略,即不存在占优战略,而是辩方依诉方的战略选择相机选择自己的最优行为,所以才出现两个纳什均衡。而且一旦诉方提出辩诉交易,就很明确地说明诉方选择了一个战略,即交易。原博弈就变成一个单结的子博弈,即图3所示的子博弈。在这个子博弈上有一个纳什均衡,即(交易,抵赖)。这个纳什均衡被称为子博弈精炼纳什均衡。一个纳什均衡成为精炼纳什均衡,当且仅当参与人的战略在每一个子博弈中构成纳什均衡,即组成精炼纳什均衡的战略必须在每一个子博弈中是最优的。如图2,如果诉方想节省资源,提高诉讼效率,必然不会选择追查下去,所以(追查,坦白)不是一个精炼纳什均衡。剔除了这个均衡,(交易,抵赖)是唯一的子博弈精炼纳什均衡。
(四)结果不同
在囚徒困境博弈中,只要两囚徒是理性的,并且明确了对方的战略选择和支付后,自己“坦白”就是唯一最好的选择。所以,(坦白,坦白)是一个占优战略均衡(上策均衡)。警察只要交待对两人不同选择的政策后,往往轻而易举地得到事实真相。
而在辩诉交易中,如果也是共同犯罪,警方(或检方)利用共同犯罪人之间的博弈,也容易得到事实真相,因为坦白是他们唯一的“上策”。其实这是诉方利用了共同犯罪人的“囚徒困境”博弈。但如果是单个人犯罪,诉方与嫌疑犯之间的博弈则完全不同。当诉方提出交易,就会立即传达给嫌疑犯一个信号,即诉方并不掌握确实充分的证据。在理性的促使下,嫌疑犯总会报有侥幸心理,选择抵赖,或是避重就轻,交代一些无关紧要的事实。哪怕警方(或检方)威胁嫌疑犯,比如告诉嫌疑犯“我们已经掌握了你的犯罪证据,接下来要看你的态度,是否配合调查”等等,也无济于事。因为这属于博弈论中的“不可置信威胁”,嫌疑犯(或其律师)非常清楚这不是事实,否则,检方没必要提出交易,他们会根据自己所掌握的证据指控嫌疑犯。
所以,囚徒困境博弈的结果是两嫌疑犯都坦白,而辩诉交易的结果往往是嫌疑犯抵赖,也就是说辩诉交易博弈难以实现诉方的期待效用。
四、结论
通过以上分析可知,囚徒困境博弈与辩诉交易博弈完全不同。如对其类型判断错误就会得出一系列的错误结论。博弈分析的目的是为了预测均衡结果。而对于辩诉交易博弈均衡结果的预测让我们发现,该司法制度并不是人们想象的一个切实可行的、完美的制度安排。它和囚徒困境的均衡结果完全不同。后者容易使警方达到自己的预期效用。而前者,即辩诉交易博弈则恰恰相反。其实,这是不用“经济人”假设和博弈工具分析也能得到的结论。所以,辩诉交易制度源发于美国,最早见于19世纪末,此后人们对此争论了近一个世纪,直到1970年美国联邦最高法院才首肯其合法地位,1974年才对其一般原则和程序有了法律规定。但尽管其拥有了合法外衣,至今对它的意义人们仍褒贬不一,难以达成共同见解。可见,任何制度变迁都不是人们随心所欲的结果,而是基于社会进步的内在吁求及科学论证的。我们在引入这一司法制度时应充分考虑其实际效果,分析其与我国的司法制度安排及法律人文环境是否匹配,否则对我国司法环境的改善不但无益反而有害。
注释:
{1}张维迎.博弈论与信息经济学[M].上海:上海人民出版社,2004
{2}[美]平狄克、鲁宾菲尔德.微观经济学(第四版)[M].北京:中国人民大学出版社,2000
{3}[美]范里安.微观经济学:现代观点(第六版)[M].上海:上海人民出版社,2006
(作者单位:中央司法警官学院,河北保定 071000;作者简介:郝赪,中央司法警官学院副教授,法学博士,研究方向:经济与法)
(责编:若佳)