复杂网络上的演化博弈及其学习机制与演化动态综述

来源 :阅江学刊 | 被引量 : 0次 | 上传用户：dalang003

【摘要】

：

【作者】

：

王先甲

【出处】

：

阅江学刊

【发表日期】

：

2021年3期

【关键词】

：

博弈论演化博弈复杂网络复杂网络上的演化博弈学习机制演化动态

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

　　摘要：博弈论是在完全理性假设下研究多人相互作用的选择理论，演化博弈是在有限理性假设下研究群体在相互作用过程中基于个体学习与选择的群体特征演化动态理论，网络上的演化博弈是研究结构化群体的演化博弈理论。本文回顾了基于完全理性的博弈论，在对有限理性新的理解的基础上介绍了演化博弈理论的发展历程，着重论述了复杂网络理论与演化博弈理论交叉衍生的复杂网络上的演化博弈的研究现状与发展趋势，特别分析和总结了演化博弈中最基本、最核心的个体学习机制与群体演化动态特征，由此揭示演化博弈中从个体微观行为到群体宏观特征的演化机理。
　　关键词：博弈论;演化博弈;复杂网络;复杂网络上的演化博弈;学习机制;演化动态
　　中图分类号：F224.32 文献标识码：A 文章分类号：1674-7089（2021）03-0070-15
　　基金项目：国家自然科学基金项目“复杂网络上演化博弈合作形成机理与控制策略”（71871171）;国家自然科学基金重点项目“学习机制下群体博弈行为演化与管理实验”（72031009）
　　作者简介：王先甲，博士，武汉大学经济与管理学院教授、博士生导师。
　　一、引言
　　微观经济学主要研究完全理性假设基础上的个体选择。古典经济学把消费者问题和生产者问题分别看成独立的个体优化选择问题，消费者与生产者之间通过无形的市场相互联系。直到1959年，Debreu在著作中建立一般均衡理论，Debreu G， Theory of Value，New Haven： Yale University Press， 1959. 把消费者与生产者纳入一个经济系统内，通过他们的相互作用确定市场均衡。这种思想和分析框架与Nash建立博弈论的思想与框架几乎完全一致。这种看起来十分完美的一般均衡理论至少存在两个弱点：一是仍然以完全理性为前提假设;二是无法展示市场均衡的形成过程，因为它本质上是消费者和生产者同时决策形成的。虽然存在这些弱点，却产生了一大进步，那就是经济学界从此不太排斥用博弈论研究多个个体间的相互作用了。然而，多个个体相互作用通常是一个过程，并且每个个体无法预期作用过程的未来，这使得基于完全理性的决策失去了基础，因为对未来的不可知性使决策者不知道怎样进行理性选择。因此，多个个体在相互作用过程中对未来预期未知时如何选择就成为需要研究的重要问题。演化博弈为开展这类问题的研究提供了分析工具。演化博弈在有限理性假設下探讨群体在相互作用过程中的个体行为选择规则及群体行为演化。也就是说，在群体相互作用过程中个体是按某种规则进行选择而不是按完全理性假设来选择。既然群体博弈是一个过程，那么个体的行为选择也可能是一个过程，个体会在这个过程中不断学习以便选择对自己更有利的行为。因此，个体选择行为时所依据的规则本质上就是通过某种学习机制确定的。每个个体选择自己的行为后形成群体整体的状态（也称系统状态），群体状态刻画了群体在相互作用过程中不同时刻的特征，不同时刻状态间的关系一般称为状态转移（也称为演化动态，有时也将演化动态理解为状态转移过程的极限）。当组成群体的个体间具有某种特殊联系时，该群体被称为结构化群体。因为网络是描述结构化群体的基本工具，且结构关系会发生各种复杂的变化，所以在研究结构化群体的相互作用过程时，复杂网络上的演化博弈就成为观注的重点。本文试图对复杂网络上的演化博弈等相关问题的研究状况与发展趋势进行简要的回顾与总结。
　　二、博弈论发展历程回顾
　　博弈论是研究理性决策者之间竞争与合作关系的数学方法，其分析范围较广，几乎包括社会科学领域所有的基本问题。Myerson R， Game Theory： Analysis of Conflict， Cambridge： Harvard University Press， 1991.实际上，竞争与合作行为一直伴随着人类的发展。一般认为最早涉及人类博弈行为的著作是2000多年以前中国春秋时期的《孙子兵法》，Sun T， The Art of War， Translated by Cleary T， Boston & London： Shambala， 1988.记录战争艺术的著作《三国演义》也是研究博弈行为的智慧结晶。但这些相对零星的研究成果只是展现了人类博弈行为的某个侧面，尚未从科学意义上对人类博弈行为进行定量分析。最早采用定量方法分析人类博弈行为的研究发生在经济学领域，Cournot、Bertrand、Edgeworth分别探讨了寡头产量竞争、寡头价格竞争和垄断竞争。Cournot A，Recherches sur les Principes Mathématiques de la théorie des Richesses，Paris： Hachette， 1838. Bertrand J， “Théorie mathématique de la richesse sociale”， Journal des Savants， vol.68（1883）， pp.499-508. Edgeworth F， “La teoria pura del monopoli”， Giornale degli Economisti， vol.40（1897）， pp.13-31.经典儿童文学名著《爱丽丝漫游仙境》的作者Dodgson（后来更名为Lewis Carroll）也是一位数学家，他用零和博弈研究政治问题。Black D， “Lewis carroll and the theory of games”， American Economic Review， vol.59， no.2（2001）， pp.206-210. Dodgson C L， The Principles of Parliamentary Representation， London： Harrison， 1884.这些工作成功地在人类特定领域的博弈行为研究中引入了定量方法，但是还不能算是正式的博弈论研究工作。Zermelo开启了博弈论的第一个正式的研究工作，Zermelo E， “ber eine anwendung der mengenlehre auf die theorie des schachspiels”， In Hobson E W， Love A E H， eds.， Proceedings of the Fifth International Congress of Mathematicians， vol.II， Cambridge： Cambridge University Press， 1913， pp.501-504.他除了建立集合论公理体系框架之外，还首次用博弈论研究了国际象棋。博弈论研究的第一个里程碑式的工作应该是由Von Neumann完成的，他于1928年比较完整地给出了零和博弈模型及其解的概念，Von Neumann J， “Zur theorie der gesellschaftsspiele”， Mathematische Annalen， vol.100， no.1（1928）， pp.295-320. Von Neumann J， Morgenstern O， Theory of Games and Economic Behavior， Princeton： Princeton University Press， 1944.后来的主要研究者实际上都受到这一工作的启发。Von Neumann和Morgenstern建立了决策理论的公理体系、零和博弈与非零和博弈的分析框架，并将其运用于经济学研究，但是他们的理论局限于矩阵博弈。　　博弈论更一般的模型和解的概念及其分析框架是由Nash建立的，他对多人相互作用关系给出了更一般的描述并提出了Nash均衡解概念。Nash的研究工作和思想在很大程度上受到Von Neumann的影响，但在适应范围和分析框架方面又有本质的拓展，使博弈论最终成为研究多人相互作用行为的一般工具。Nash在20世纪50年代发表的关于博弈论的几篇著名论文奠定了非合作博弈的理论基础。Nash J F， “Bargaining problem”， Econometrica， vol.18， no.2（1950）， pp.155-162. Nash J F， “Non-cooperative games”， Annals of Mathematics， vol.54， no.2（1951）， pp.286-295. Nash J F， “Two-person cooperative games”， Econometrica， vol.21， no.1（1953）， pp.128-140.然而，由于Nash的研究工作以完全信息为基础，具有极强的数学理论性且不能处理经济学中几乎无处不在的不确定性信息问题，所以最初并未被经济学界所接受。Harsanyi于1977年在著作中建立了一套解释和描述多人相互作用中的不完全信息理论，Harsanyi J C， Rational Behavior and Bargaining Equilibrium in Games and Social Situations， Cambridge： Cambridge University Press， 1977.提出了Baysian Nash均衡解概念和不完全信息非合作博弈论。但是Nash和Harsanyi的研究只能处理静态的非合作博弈，即博弈各方只能同时进行一次行为选择，不能处理多人相互作用过程的动态博弈问题。Selten、Kreps、Wilson建立了多阶段动态非合作博弈理论，Selten R， “Reexamination of the perfectness concept for equilibrium points in extensive game”， International Game Theory， vol.4， no.1（1975）， pp.25-55. Kreps D， Wilson R， “Sequential equilibrium”， Economietrica， vol.50， no.4 （1982）， pp.863-894. 提出了子博弈完美Nash均衡概念和“颤抖手”精炼均衡概念。由于在非合作博弈研究中的杰出工作，Nash、Harsanyi和Selten三人在1994年被授予诺贝尔经济学奖。
　　Tucker于1950年发现囚徒困境现象，Tucker A W， A Two-person Dilemma， Unpublished notes， Stanford University， 1950.为非合作博弈的研究提供了典型原型，也揭示了博弈论与决策理论的重要区别，决策理论研究单人在理性假设下的决策行为，决策主体寻求的是能使自身偏好最优的行为选择，而在Nash的博弈论框架下理性人的行为出现了一种由囚徒困境所表征的特点，即个体理性与集体理性的冲突。实际上，囚徒困境现象在实践中广泛存在，Cournot的数量竞争模型也是囚徒困境。这种十分简单的博弈模型却导致博弈出现了几个不同的发展方向，其中一个是合作博弈。虽然Von Neumann和Morgenstern建立了合作博弈的基本框架，但是合作博弈的研究在20世纪50年代中期到60年代中后期才有了较快的发展，这一时期经济学界正在怀疑Nash提出的非合作博弈，因为它不能处理不完全信息而产生了可应用性问题。合作博弈按效用的可转移性可以分为效用可转移型和效用不可转移型，Aumann较早研究了效用不可转移合作博弈，Aumann R J， “The core of a cooperative game without side payment”， Transactions of the American Mathematical Society， vol.98， no.3（1961）， pp.539-552.随后关于效用不可转移合作博弈的研究虽然并不多但依然沿用Aumann的框架。自Von Neumann和Morgenstern构建效用可转移合作博弈的框架以来，合作博弈基于特征函数，主要研究联盟成员如何合理有效地分配收益。围绕合理有效地在联盟中分配收益问题建立解概念及公理体系是合作博弈理论发展的中心。1953年Gillies引入了核（Core）作为合作博弈解的概念，Gillies D， Some Theorems on N-person Games， Princeton： Princeton University Press， 1953.这个解概念具有给出的分配方案对任何子结盟没有诱导性的特性，但它不是单值的而是集值的。在合作博弈中集值解概念为数不少，Aumann和Mascher提出的合作博弈协商集解概念是集值的，Aumann R J， Maschler M， “The bargaining set for cooperative game”， Advances in Game Theory， vol.52（1964）， pp.443-476.Peleg的内核（Kernel）解概念、Maschler的预核（Prekernel）解概念等都是集值解概念。Peleg B， Vorobev N N， Tóth L F， “On the kernel of comstant-sum simple games with homogeneous weights”， Illinois Journal of Mathematics， vol.10（1966）， pp.39-48. Maschler M， Peleg B， Shapley L S， “The kernel and bargaining set for convex games” ， International Journal of Game Theory， vol.1， no.1（1971）， pp.73-93. 而Shapley在1953年提出了一個著名的单值解概念，Shapley L S， “A value for n-person games”， In Tucker A W， Kuhn H W， eds.， Contributions to the Theory of Games，vol.II， Princeton： Princeton University Press， 1953， pp.307-317.称为Shapley值，这个解概念可解释为每个个体得到的收益是其所有可能的边际贡献的平均值，并且Shapley用一组公理完全刻画了这个单值解概念。单值解概念还包括Schmeidler的核仁（Nucleolus）（它的表示形式虽然是集合，但由于采用字典序定义，实际上是一个单值解概念）、Tijs的τ值和平均字典值解概念。Schmeidler D， “The nucleolus of a characteristic function game”， Siam Journal on Applied Mathematiics， vol.17（1969）， pp.1163-1170. Tijs S H， “Bounds for the core of a game and the τ-value” In Moeschlin O， Pallaschke D， eds.，Game Theory and Mathematical Economics， Amsterdam： North-Holland， 1981， pp.123-132. Peleg和Sudhlter是合作博弈解概念公理化分析的集大成者。Peleg B， Sudhlter P， Introduction to the Theory of Cooperative Games， Boston： Kluwer Academic Publishers， 2007.在合作博弈研究中，Shapley的研究工作被认为是开创性的，被统称为关于稳定分配（匹配）与市场设计的研究，他与Roth一起获得2012年诺贝尔经济学奖。当前，博弈论几乎在所有涉及多智能体（包括人和生物）的领域得到了发展和应用。Aumann和Hart、Young和Zamir出版了四本博弈论手册，Aumann R J， Hart S， Handbook of Game Theory with Economic Applications， vol.1， Amsterdam： North-Holland， 1992. Aumann R J， Hart S， Handbook of Game Theory with Economic Applications， vol.2， Amsterdam： North-Holland， 1994. Aumann R J， Hart S， Handbook of Game Theory with Economic Applications， vol.3， Amsterdam： North-Holland， 2002.Young H P， Zamir S， Handbook of Game Theory with Economic Applications， vol.4， Amsterdam： North-Holland， 2015.堪称博弈论全书，这套博弈论手册共分80个专题对博弈论进行了较详细的论述。　　三、演化博弈论的发展历程回顾
　　尽管在过去几十年里，博弈论得到了长足发展，但仍然存在一些缺陷。第一，经典博弈论（包括合作博弈与非合作博弈）假设参与人是完全理性的。在决策理论意义下，一个决策者是理性的是指他可以选择与自己偏好一致的最优决策（行为）。而在博弈论意义下，参与人是理性的是指参与人选择的策略（行为）在博弈中不被严格占优。这个定义是一种否定表示形式，它并未告诉人们直接选择什么。第二，以Nash均衡为基础来定义解概念给出了多人相互关系中所有参与人共同的合理的理性预期，虽然它在本质上是所有参与人的选择互为最优反应的结果，却无法给出这种基于最优反应的均衡的形成过程，也不能讨论均衡的稳定性。第三，多重均衡问题导致经常无法排除明显不合理的均衡，进而影响参与人做出最终选择。第四，对合作的理解存在分歧。合作博弈将合作理解为结盟，而非合作博弈把合作理解为参与人选择对他人有利的策略（行为）。第五，无法反映参与人的学习过程。演化博弈虽然源于生物学，但是之所以被列入博弈论的范畴，正是因为它在一定程度上回答了上述五个问题。
　　（一）有限理性
　　完全理性假设是经典博弈论和经典经济学理论的基石，也是它们遭受质疑的首要问题。与完全理性相对立的是有限理性。理性本质上是讨论人在决策时选择行为的依据或原则。亚当·斯密最早在其著作《国富论》中提出经济人概念，后来被约翰·穆勒等人总结为经济人假设，经济人假设指出人总是做出使自己利益最大化的决策。Von Neumann和Morgenstern建立的经典决策理论中以完全理性假设作为决策者或博弈参与人的行为选择原则，这里的完全理性假设与经济人假设是一致的。
　　美国经济学家Arrow很可能是最早提出有限理性概念的学者，Arrow K J， “Rational choice functions and ordings”， Economica， vol.26， no.102（1959）， pp.121-127.他认为，人的行为是有意识理性的，但这种理性又是有限的。Simon一直是有限理性概念的倡导者，Simon H A， “A behavioral model of rational choice”， Quarterly Journal of Economics， vol.69，no.1（1955）， pp.99-118.他认为，人类的认知能力在心理上存在临界极限，决策中的推理活动需要足够的能力来支撑，而人类只有有限能力，决策中需要大量的信息，而能获得的信息是有限的。因此，决策者并非总是可以实现其最优决策，即决策者的决策是在有限理性下的决策。自从Simon认为有限理性是建立决策理论的基石以来，[美]赫伯特·西蒙：《现代决策理论的基石》，杨砺、徐立译，北京：北京经济学院出版社，1989年，第1页。Simon H A， “Bounded rationality and organizational learning”， Organization Science， vol.2， no.1（1991）， pp.125-134.不少学者总结了对各种有限理性进行解释和描述的模型。Selten R， “Features of experimentally observed bounded rationality”， European Economic Review， vol.42， no.3（1998）， pp.413-436. Arthur W B， “Designing economic agents that act like human agents：A behavioral-approach to bounded rationality”， American Economic Review， vol.81， no.2（1991）， pp.353-359. Wall K D， “A model of decision-making under bounded rationality”， Journal of Economic Behavior & Organization， vol.20， no.3（1993）， pp.331-352. Board R， “Polynomially bounded rationality”， Journal of Economic Theory， vol.63， no.2（1994）， pp.246-270. Samuelson L， “Bounded rationality and game theory”， Quarterly Review of Economics and Finance， vol.36， no.s1（1996）， pp.17-35.大多數学者认为，决策者在决策过程中可以通过不断学习提高有限的知识水平、有限的推理能力、有限的信息处理能力，从而使有限理性得到不断改善。Thaler获得2017年诺贝尔经济学奖的工作就是通过探索有限理性展示人格特质如何系统地影响个人决策与市场。Thaler R H， Misbehaving： The Making of Behavioral Economics， New York：W. W. Norton & Co.， 2015.
　　虽然关于有限理性的多项研究成果已经获得了几届诺贝尔经济学奖，但是人们仍然认为，对有限理性的理解仅限于局部的、定性的分析，决策论学者、博弈论学者、经济学学者并未形成共识。人们对有限理性与完全理性有如下理解：当决策者面对决策问题时，如果决策者对当前和未来的信息结构和偏好结构具有完全知识，他将按完全理性假设确定的决策规则选择行为，否则，他将按其他规则选择行为。根据有限知识、有限信息、有限推理能力确定的规则做出行为选择，称为有限理性下的选择。本质上，有限理性出现的原因是决策者不能完全掌握信息结构和偏好结构。决策者在有限理性假设下做出行为选择所依据的规则应该有利于改善他的收益。这样就可以连续统一地解释完全理性假设和有限理性假设下的选择行为。决策者可以通过各种途径改善知识、信息和推理能力，从而改善有限理性，改善的标志是决策者的收益提高了。决策者面临决策问题将以改善收益为目的，不断增进对信息结构与偏好结构的理解，从而使理性的有限性得到改善，直到对信息结构和偏好结构完全掌握，就能够按照完全理性确定的规则选择行为了。　　引入学习的观点具有必然性，因为决策者会通过不断学习改善理性的有限性并适时调整策略。如果将这种通过不断学习更新有限理性并调整策略的特征置入群体相互关系中，那么群体成员通过随机配对进行反复博弈、学习、调整策略，最终会显示出个体（类型或策略）适应性。这种思路与达尔文自然选择思想形成的生物进化理论的分析框架几乎完全相同，人类与生物的很多行为（比如竞争与合作）具有相似性，二者的学习方式完全可能互相启示。于是，生物学家Maynard和Price借鉴了研究生物种群群体状态进化和稳定机制的方法来分析人类的行为，将生物进化理论的思想引入博弈论，提出了演化博弈思想和演化稳定均衡策略的概念。这种起源于生物进化理论的博弈分析方法就被称为演化博弈论。
　　（二）演化博弈论的发展历程回顾
　　实际上，演化博弈思想最早应该源于Fisher在1930年开展的研究工作，Fisher R A， The Genetical Theory of Natural Selection， Oxford： Clarendon Press， 1930.但遗憾的是他没有给出演化博弈的形式化表示与分析框架。Maynard和Price首先提出了源于生物学的演化博弈，并给出其形式化表示，Maynard S J， Price G R， “The logic of animal conflict”， Nature， vol.246， no.5427（1973）， pp.15-18.后经Taylor、Jonker、Selten发展而成。Taylor P D， Jonker L B， “Evolutionary stable strategies and game dynamics”， Mathematical Biosciences， vol.40， no.1（1978）， pp.145-156. Selten R， “Evolutionary stability in extensive two-person games”， Mathematical Social Sciences， vol.5， no.3（1983）， pp.269-363.演化博弈将生物学中的演化概念用于解释生物或人的选择行为是有限理性假設下基于规则的选择过程，并将群体博弈描述成一个过程，在动态系统稳定与博弈论的Nash均衡之间建立起联系，使得展现Nash均衡的实现过程成为可能。Weibull对1995年之前的演化博弈论研究进展进行了系统的总结。Weibull J W， Evolutionary Game Theory， Cambridge： The MIT Press， 1995.
　　作为研究生物认识的方法，演化博弈关注个体的行为表现特征而非生物组织内在的基因特征。于是，演化博弈形成的基础被认为是生物特征学的三个基本原则，即个体异质性、适应性和自然选择。表现型由基因库的多样性保障，表现型的成功生存可以用适应性测量，自然选择决定了更适应的表现型比更不适应的表现型在下一代繁殖中有更多的数量。变异（突变）是由偶然因素引起的，多数突变者因表现型行为不适应环境而被淘汰，少数突变者将因新的表现型更适应环境而生存。Maynard和Price提出了演化博弈解的概念，Maynard S J， Price G R， “The logic of animal conflict”， Nature， vol.246， no.5427（1973）， pp.15-18.即演化稳定均衡（策略）。演化稳定策略有如下性质：对己方而言，对手以小概率选择变异策略时，演化稳定策略严格占优于变异策略。从传统的博弈论观点来理解就是：对己方而言，如果对手在演化稳定策略和变异策略之间随机选择并以很小的概率选择该变异策略时，演化稳定策略严格占优于变异策略。从生物学观点来理解就是：如果演化稳定策略种群被变异策略种群中的一小部分入侵，演化稳定策略种群在抵御该小变异种群过程中比变异种群有更强大的生存能力，表明演化稳定策略种群在抵御变异策略种群时具有稳定性。演化稳定策略还可以解释为：对己方而言，演化稳定策略对抗任何变异策略得到的收益严格大于该变异策略得到的收益。
　　根据演化稳定策略的定义，可以证明演化稳定策略也是Nash均衡策略。由于Nash均衡策略是互为最优反应策略，所以也可以认为演化稳定策略是对任意策略的严格意义下的最优反应策略。由于可以将演化稳定策略理解成Nash均衡策略的一种精炼，所以它成为解决多重Nash均衡的一种方法。演化动态将演化稳定策略与生物演化（进化）巧妙地联系起来，演化动态描述了演化过程中个体改变策略的规则，包括演化系统结构、个体特征、策略的更新规则。它反映了基于适应性和学习性选择进化的本质。从数学上讲，演化动态是系统历史在当前时刻的动态映射。在复制（演化）动态关系下，可以证明渐近稳定点与演化稳定策略是等价的。Peters H， Game Theory： A Multi-leveled Approach， Berlin： Springer Verlag， 2008.这样就把有限理性下某种演化动态的演化稳定策略与完全理性下的Nash均衡策略有机联系了起来。基于这一思想，Maynard建立了演化博弈的分析框架，Maynard S J， Evolution and the Theory of Games， Cambridge： Cambridge University， 1982.可以说是演化博弈的奠基之作。演化动态是演化博弈的核心概念，演化动态可分成确定性演化动态和随机性演化动态，一般来讲，对任何确定性演化动态都可以构造相应的随机演化动态。
　　四、复杂网络上的演化博弈发展现状与发展趋势
　　（一）复杂网络理论
　　复杂网络理论是用网络工具研究由多个基本单元通过复杂相互作用构成的复杂系统的方法。主要研究不同网络拓扑模型及其统计特性、复杂网络形成机制、复杂网络上的动力学行为规律。　　由于现实中存在大量的复杂相互作用关系，复杂网络被认为是对大量真实复杂相互作用关系系统在结构关系上的拓扑抽象。復杂网络以网络为描述工具，于是，网络理论自然成为研究复杂网络的基础。网络理论起源于图论，段志生：《图论与复杂网络》，《力学进展》，2008年第6期，第702-712页。图论源于数学家Euler在1736年访问加里宁格勒时发现的七座桥散步问题。图论是研究图的各种性质的学问。图是由节点的集合和连接节点的边的集合构成的二元组，节点代表个体，边代表个体之间的相互作用关系。网络是被赋予某种特定意义的图。网络理论是研究具有特定意义的有限个体相互作用关系的工具。
　　最简单的复杂网络是规则网络，主要包括格网络、全局耦合网络和最邻近耦合网络。Perc M， Jordan J J， Rand D G， et al， “Statistical physics of human cooperation”， Physics Reports， vol.687（2017）， pp.1-51.复杂网络的复杂性主要利用结构复杂性来刻画，比如高聚类系数、短路径长度的小世界现象及度分布呈现幂律特征的无标度特性等，典型的复杂网络主要有随机网络、WS小世界网络和BA无标度网络等。
　　Erdos等提出了随机网络（也称ER随机图）的概念。Erdos P， Rényi A， “On random graphs”， Publicationes Mathematicae， vol.6， no.4（1959）， pp.290-297.ER随机网络模型假设网络中有N个节点，将任意两个节点以概率p进行连接，可以生成一个由N个节点构成的平均度为p（N-1）的网络，该网络的节点度满足泊松分布。Erdos 等建立了随机网络理论并开创了基于图论的复杂网络理论的系统性研究。Erdos P， Rényi A， “On the evolution of random graphs”， Publications of the Mathematical Institute of the Hungarian Academy of Science， vol.5， no.1（1960）， pp.17-61.
　　Milgram发现了小世界现象，Milgram S， “The small world problem”， Psychology Today， vol.2， no.1（1967）， pp.185-195.由他的社会调查以及“小世界实验”可以推断地球上任意两个人之间的平均度为6（称为6度分离），表明任意两个社会成员之间总是可以通过一条相对较短的路径实现相互连接。Watts和Strogatz发现了这种小世界现象的结构特征，Watts D J， Strogatz S H， “Collective dynamics of ‘small-world’ networks”， Nature， vol.393， no.6684（1998）， pp.440-442.并提出了WS小世界网络（简称WS模型）。这种网络有一种看上去很复杂但遵循一定规则的结构，即对于节点数给定（N）的最邻近耦合网络，把网络中任一条边以概率p断开并重新连接到另一个随机挑选的节点上，但是不允许出现重复或自连接的情况，此时概率p与网络结构有如下关系：当p=0时，该网络仍然为最邻近耦合网络;当p=1时，该网络变为特殊ER随机网络;当0<p<1时，随着p的增大，节点度之间的异质性随之增大，同时网络中可能会出现孤立簇。这种现象与随机重新连接性可能会破坏网络的连通性有关。为了保证网络连通性，Newman和Watts对WS小世界网络模型进行了修改，Newman M E， Watts D J， “Scaling and percolation in the small-world network model”， Physical Review E， vol.60， no.6（1999）， pp.7332-7342.提出了NW小世界网络（简称NW模型）。在NW模型中，从一个最邻近的环形网格中以概率p随机选取一对节点建立新连接，要求任何两个节点间最多只存在一条边。这种用随机添加新边取代WS模型中随机重新连接的方法有效地保证了网络连通性。NW小世界网络与WS小世界网络的基本特征是具有较大的簇系数和较小的最短平均距离，因此统称为小世界网络。
　　Barabasi和Albert发现了一种具有特殊度分布特性的网络结构，Barabasi A L， Albert R， “Emergence of scaling in random networks”， Science， vol.286， no.5439 （1999）， pp.509-512.即极少数节点的度较大而大量节点的度较小，提出用BA无标度网络来刻画这种特性。BA无标度网络的生成规则为：从一个m0个初始节点的全局连通网络开始，每次增加一个新节点，从已有节点中随机选择m（m≤m0）个节点与之连接，新节点与已有节点的相连概率与已有节点的度成正比，网络生成过程中不允许重复连接。这种BA无标度网络的主要特征是节点度满足幂率分布且幂率函数具备标度不变性。BA无标度网络可以用来描述不断增长和择优开放的现实世界。BA无标度网络和小世界网络一起揭示了现实世界形形色色的复杂网络具有普遍的、非平凡的结构特性。
　　最近有学者认识到网络中节点和连边的异质性，提出了多层网络，Boccaletti S， Bianconi G， Criado R， et al， “The structure and dynamics of multilayer networks”， Physics Reports， vol.544， no.1（2014）， pp.1-122.这类网络主要描述节点异质、连边异质和同类节点间是否存在连边组合的特性。最有代表性的两种多层网络为多维型多层网络和依存型多层网络。同样地，学术界主要关注多层网络的拓扑性质、鲁棒性等问题。复杂网络正在成为分析各种复杂连接的结构关系及其动态变化的重要工具。武利琴、王金环、徐勇：《一种基于半张量积的多层网络演化博弈方法》，《复杂系统与复杂性科学》，2017年第3期，第68-74页。如果要研究演化博弈中种群（群体）的结构特性，那么自然就需要将演化博弈放置在复杂网络上进行分析。李永立、陈杨、樊宁远等：《考虑个体效用因素的社会网络演化分析模型》，《管理科学学报》， 2018年第3期，第41-53页。　　（二）复杂网络上的演化博弈
　　复杂网络上的演化博弈从参与人之间的关系（网络结构特性）和策略更新规则两个方面研究种群的行为演化，特别关注合作行为的演化。王龙、伏锋、陈小杰等：《复杂网络上的演化博弈》，《智能系统学报》，2007年第2期，第1-10页。苏奇：《复杂网络上的合作演化和博弈动力学研究》，博士学位论文，北京大学，2020年。
　　1.规则网络上的演化博弈
　　作为一种最简单的复杂网络，规则网络最早被引入空间（结构）博弈的演化研究之中，并且总是毫无例外地最先考虑最简单的囚徒困境。囚徒困境的确是一种让人们十分讨厌而又依依不舍的博弈模式，因为人们特别关心怎样才能克服囚徒困境，实现囚徒之间的合作。
　　Nowak和May首先研究了二维格子网络上囚徒困境的演化，Nowak M A， May R M， “Evolutionary games and spatial chaos”， Nature， vol.359， no.6398（1992）， pp.826-829.每个个体与邻居进行囚徒困境博弈，在演化过程中，个体采取模仿动态更新策略，研究发现在空间网络结构下合作者会产生聚集现象，合作类型的个体通过彼此间的合作来抵御背叛者的入侵，从而保持合作在种群中的稳定性。Szabo和Toke在二维格子网络上研究了囚徒困境的演化，分析了邻居数量可变情况下的种群合作行为演化，发现当背叛收益较低时，空间网络结构会促使种群采取合作行为，但是随着背叛收益的增加合作与背叛将出现共存现象。Szabo G， Toke C， “Evolutionary prisoners dilemma game on a square lattice”， Physical Review E， vol.58， no.1 （1998）， pp.69-73.Doebeli和Knowlton发现在竞争环境下，种群中的个体在囚徒困境的演化过程中会因为空间结构的引入而产生互惠效应，这提高了合作伙伴的收益，进而促进了合作。Doebeli M， Knowlton N， “The evolution of interspecific mutualisms”， Proceedings of the National Academy of Sciences， vol.95（1998）， pp.8676-8680.Hauert和Doebel发现在二维方格网络上雪堆博弈的演化过程中空间网络结构会抑制合作者的聚集，导致种群的合作水平可能低于均匀混合种群下的合作水平，Hauert C， Doebeli M， “Spatial structure often inhibits the evolution of cooperation in the snowdrift game”， Nature， vol.428， no.6983（2004）， pp.643-646.这与在囚徒困境演化博奕中得到的结论相反。Ohtsuki和Nowak探讨了规则网络下的随机复制子动态模型，Ohtsuki H， Nowak M A， “The replicator equation on graphs”， Journal of Heoretical Biology， vol.243， no.1（2006）， pp.86-97.分别在弱选择强度下研究了生灭过程、灭生过程、模仿过程和成对比较四种策略更新规则的复制子动态方程，结论是灭生过程的策略更新规则更有利于囚徒困境的合作演化。
　　此外，一些学者还在规则网络上讨论了其他特殊博弈的演化，Szabo和Fath系统总结了在不同网络结构和策略更新规则下囚徒困境、雪堆博弈、鹰鸽博弈等博弈模型中种群策略的演化特性。Szabo G， Fath G， “Evolutionary games on graphs”， Physics Reports， vol.446， no.4（2007）， pp.97-216.Altrock等研究了强选择强度下环形网络结构上的扎根概率，Altrock P M， Traulsen A， Nowak M A， “Evolutionary games on cycles with strong selection”， physical Review E， vol.95，no.2（2017）， 022407.这种网络结构会在一定程度上降低突变个体的扎根概率，在灭生过程刻画的演化动态下扎根时间更长。这些研究促使许多学者在复杂网络上分析演化博弈时引入不同的学习规则，进而发现由学习规则引起的策略更新规则的变化的确会在一定程度上促进或阻止合作的演化。Szolnoki A， Perc M， “Conformity enhances network reciprocity in evolutionary social dilemmas”， Journal of the Royal Society Interface， vol.12， no.103（2015）， pp.1-8.
　　2.随机网络上的演化博弈
　　Durán和Mulet在随机网络上讨论了囚徒困境中合作行为的演化，Durán O， Mulet R， “Evolutionary prisoners dilemma in random graphs”， Physica D： Nonlinear Phenomena， vol.208， no.3（2003）， pp.257-265.發现随机网络的连通性程度会影响合作的演化特性，连通性较低的种群达到演化稳定时的合作者比例与初始状态相关，而连通性较高的种群达到演化稳定时的合作者比例与初始状态无关。Vukov等在规则随机网络上讨论了囚徒困境中合作行为的演化，Vukov J， Szabó G， Szolnoki A， “Cooperation in the noisy case： Prisoners dilemma game on two types of regular random graphs”， Physical Review E， vol.73，no.2（2006）， 067102.分析了规则随机网络的不同拓扑结构对合作演化的影响，发现合作行为的维持与噪声效应和相互作用拓扑结构中的圈结构有关。在较小的噪声效应下，三角形组成的随机网络结构最有利于囚徒困境向合作策略演化。　　3.小世界网络上的演化博弈
　　Abramson最早在小世界网络上研究了囚徒困境中合作行为的演化，Abramson G， Kuperman M， “Social games in a social network”， Physical Review E， vol.63， no.3（2001）， 030901.采取确定性模仿学习策略更新规则，发现网络平均度和重连概率在某些范围内会促进合作，在另一些范围会抑制合作。Kim等在有限密度定向连接特殊节点的小世界网络上讨论了囚徒困境中合作行为的演化，Kim B J， Trusina A， Holme P， et al， “Dynamic instabilities induced by asymmetric influence： Prisoners dilemma game in small-world networks”， Physics Review E， vol.66， no.1（2002）， 021907.发现合作水平与背叛策略是否占据特殊节点有很强的关系，当采取背叛策略的个体占据特殊节点时种群的合作水平会出现显著下降，即使随后采取背叛策略的个体离开该特殊节点，恢复种群合作水平也需要更长的时间。Santos等比较了在传统小世界网络与同质小世界网络（即网络中的每个节点具有相同数量的连接）两种不同网络结构上囚徒困境中合作行为演化的差异性。Santos F C， Rodrigues J F， Pacheco J M， “Epidemic spreading and cooperation dynamics on homogeneous small-world networks”， Physical Review E， vol.72， no.5（2005）， 056128.类似地，Tomassini等在WS小世界网络上研究了鹰鸽博弈中合作行为的演化，Tomassini M， Luthi L， Giacobini M， “Hawks and Doves on small-world networks”， Physical Review E， vol.73， no.2（2006）， 016132.比较分析了模仿动态、比例更新和最优更新三种策略更新规则下合作行为的演化特性和差异。Chen和Wang在小世界网络上讨论了个体以愿景演化动态作为策略更新规则的演化博弈，Chen X， Wang L， “Promotion of cooperation induced by appropriate payoff aspirations in a small-world networked game”， Physical Review E， vol.77， no.2（2008）， 017103.研究表明适当的愿景水平会促进种群的合作行为。
　　4.无标度网络上的演化博弈
　　Santos等首先研究了BA无标度网络上的演化博弈，Santos F C， Pacheco J M， Lenaerts T， “Evolutionary dynamics of social dilemmas instructured heterogeneous populations”， Proceedings of the National Academy of Sciences， vol.103， no.9（2006）， pp.3490-3494.试图揭示合作演化与无标度网络结构化种群之间的关系，在生长机制和优先连接下，无标度网络结构能促进合作行为的涌现，长期的合作行为会抵制短期的非合作行为。Szolnoki等研究了在BA无标度网络上的演化博弈中个体的收益从累计收益向度平均收益连续变化时合作频率的变化情况。Szolnoki A， Perc M， Danku Z， “Towards effective payoffs in the prisoners dilemma game on scale-free networks”， Physica A， vol.387， no.8-9（2008）， pp.2075-2082.Wang等基于全局更新规则和粒子群优化算法分析了BA无标度网络中合作演化与节点度的关系。Wang W X， Lv J， Chen G， et al， “Phase transition and hysteresis loop instructured games with global updating”， Physical Review E， vol.77， no.2（2008）， pp.568-572. Wang X J， Lv S J， “The roles of particle swarm intelligence in the prisoners dilemma based on continuous and mixed strategy systems on scale-free networks”，Applied Mathematics and Computation， vol.355（2019）， pp.213-220.度较低的节点不得不变成合作者以避免最低收益行为对合作行为的维持与扩散产生重要影响。度较高的节点倾向于保持初始策略并影响度较低节点的策略更新。Perc在BA无标度网络上研究了囚徒困境与雪堆博弈中合作行为的演化，合作演化对网络节点的随机删除具有鲁棒性，但删除度较高的节点会导致网络的异质性降低，进而降低群体合作水平。Perc M， “Evolution of cooperation on scale-free networks subject to error and attack”， New Journal of Physics， vol.11（2009）， 033027.Pea等将个体模仿局部共同行为一致性特性引入策略更新规则中，发现BA无标度网络对合作的促进作用受到抑制，网络的中心节点更容易受度较低节点的影响。Pea J， Volken H， Pestelacci E， et al， “Conformity hinders the evolution of cooperation on scale-free networks”， Physical Review E， vol.80， no.1（2009）， 016110.Yang等在研究可調节度分布无标度网络上的演化博弈时，利用度分布幂律指数描述了网络的异质性，发现存在可以使合作水平达到最高的幂律指数，过高的异质性会激发背叛行为，在强异质性下度较高的节点不会被合作者占领。Yang H X， Wu Z X， Du W B， “Evolutionary games on scale-free networks with tunable degree distribution”， Europhysics Letters， vol.99， no.1（2012），10006.Ichinose和Sayama分别讨论了累计收益与平均收益下无标度网络中的合作演化，累计收益促进合作的能力比平均收益更强，在给定累计收益下度较高的节点对促进合作具有关键作用，而在给定平均收益下度较低的节点对促进合作具有关键作用。Ichinose G， Sayama H， “Invasion of cooperation in scale-free networks： Accumulated versus average payoffs”， Artificial Life， vol.23， no.1（2017）， pp.25-33. 　　五、演化博弈中的学习机制与演化动态
　　演化动态是演化博弈中最基本、最核心的内容。演化动态是根据系统历史、当前状态和基于学习机制的群体行为选择将演化博弈的当前状态映射到下一个时刻的状态的规则。在有限理性假设下，演化博弈中的个体将根据所获取的信息不断更新自己的行为（策略），这种更新规则实际上就是学习机制，因此，基于学习机制的群体行为更新是个体在演化博弈中的合理选择。这里从基于微分方程的学习机制与演化动态、基于随机过程的学习机制与演化动态、基于智能算法的学习机制与演化动态、其他学习机制与演化动态四个方面进行简要总结。Sandholm比较系统地论述了学习机制与演化动态。Sandholm W H， “Population games and deterministic evolutionary dynamics”， In Young H P， Zamir S， eds.， Handbook of Game Theory with Economic Applications， vol.4， 2015， pp.703-778.
　　（一）基于微分方程的学习机制与演化动态
　　基于微分方程的学习机制中最常用的是复制动态方程，最早由Taylor和Jonker提出，Taylor P D， Jonker L B， “Evolutionary stable strategies and game dynamics”， Mathematical Biosciences， vol.40， no.1-2（1978）， pp.145-156.后来Maynard、Weibull、Hofbauer和Sigmund等在相关论著中进行了深入研究。Maynard S J， Evolution and the Theory of Games， Cambridge： Cambridge University， 1982. Weibull J W， Evolutionary Game Theory， Cambridge： The MIT Press， 1995. Hofbauer J， Sigmund K， Evolutionary Games and Population Dynamics， Cambridge： Cambridge University， 1998.
　　这种学习机制通常采用常微分方程来描述策略的演化，意义在于描述改变策略的种群频数变化率与其频数成正比，与适应度大于群体平均适应度的幅度成正比，因此可以很好地刻画博弈中种群的演化过程。复制动态方程假设种群中个体数量无限大，且混合均匀，并且没有考虑决策环境中的不确定因素，可以视为一种无变异的自然选择学习机制。这一机制已经广泛地应用于演化生物学和博弈论。王军武、余旭鹏：《考虑风险关联的轨道交通PPP项目风险分担演化博弈模型》，《系统工程理论与实践》，2020年第9期，第2391-2405页。梁秀峰、张飞涟、颜红艳：《基于演化博弈的PPP项目绩效支付机制仿真与优化》，《中国管理科学》，2020年第4期，第153-163页。当个体策略的演化不仅与时间有关，也与空间有关时，复制动态需要用偏微分方程来描述。Hutson V C L， Vickers G T， “Travelling waves and dominance of ESSs”， Journal of Mathematical Biology， vol.30（1992）， pp.457-471.Foster和Young首次将随机性引入复制动态方程中，提出了用随机微分方程来描述策略演化。Foster D， Young P， “Stochastic evolutionary game dynamics”， Theoretical Population Biology， vol.38， no.2（1990）， pp.219-232.此外，基于微分方程的学习机制还包括最优反应动态、Logit动态等。Gilboa I， Matsui A， “Social stability and equilibrium”， Econometrica， vol.59， no.3（1991）， pp.859-867. Fudenberg D， Levine D， The Theory of Learning in Games， Cambridge：The MIT press， 1998.
　　（二）基于隨机过程的学习机制与演化动态
　　基于微分方程的学习机制主要用于规模足够大的种群，种群中有无限多个个体。但是在现实系统中，种群规模总是有限的，并且决策环境中具有各种随机因素，因此就出现了主要用于有限种群演化分析的随机演化动态。可以根据策略更新的特征将演化动态分为异步更新与同步更新，异步更新包括Moran过程、模仿更新和愿景更新，同步更新主要指Wright-Fisher过程。
　　Nowak等首先将Moran过程引入演化博弈的策略选择中，Nowak M A， Sasaki A， Taylor C， et al， “Emergence of cooperation and evolutionary stability in finite populations”， Nature， vol.428， no.6983（2004）， pp.646-650.提出了有限种群基于Moran过程的随机演化博弈模型。Imhof和Nowak首次提出有限种群中的演化动态可以用频率依赖的Wright-Fisher过程来研究，Imhof L A， Nowak M A， “Evolutionary game dynamics in a Wright-Fisher process”， Journal of Mathematical Biology， vol.52， no.5（2006）， pp.667-681.将Wright-Fisher演化动态模型用于描述离散世代的生物种群演化，种群中所有个体在同一时间进行繁殖产生后代，下一个时间步从该后代种群中选择下一代并保持种群数量不变，这是一种同步更新过程。Fermi学习机制下的演化动态是采用非线性形式的Fermi函数的模仿更新过程。Traulsen A， Hauert C， “Stochastic evolutionary game dynamics”， In Schuster H G， eds.， Reviews of Nonlinear Dynamics and Complexity， vol.2，2009， pp.25-61.王先甲等对随机演化动态进行了较为详细的总结。王先甲、顾翠伶、赵金华等：《随机演化动态及其合作机制研究综述》，《系统科学与数学》，2019年第10期，第1533-1552页。　　根据后代是否采用与母体相同的策略，策略演化过程可以分为无变异演化和有变异演化。在无变异情况下，Moran演化动态、Wright-Fisher演化动态、Fermi演化动态策略更新的演化过程是具有两个吸收状态的马尔科夫链，此时策略的扎根概率成为影响总体演化动态的重要指标，通过扎根概率可以得到某一策略最终成为总体中唯一策略的概率。Wang X J， Gu C L， Lv S J， et al， “Evolutionary game dynamics of combining the Moran and imitation processes”， Chinese Physical B， vol.28， no.2（2019）， 020203. Wang X J， Gu C L， Quan J， “Evolutionary game dynamics of the Wright-Fisher process with different selection intensities”， Journal of Theoretical Biology， vol.465， no.1（2019）， pp.17-26.有限總体随机演化动态中另一个非常重要的指标是扎根时间，Altrock P M， Traulsen A， “Fixation times in evolutionary games under weak selection”， New Journal of Physics， vol.11， no.1（2008），013012.包括平均非条件扎根时间与平均条件扎根时间。扎根概率解释了一个合作者占领整个种群的可能性，平均条件扎根时间描述了从突变到扎根（占据种群）需要的平均时间。
　　在有变异情况下，策略更新过程是没有吸收状态的马尔科夫过程，此时更关注策略达到均衡状态时的平均丰度。Fudenberg D， Imhof L A， “Imitation processes with small mutations”， Journal of Economic Theory， vol.131， no.1（2006）， pp.251-262.在愿景演化动态的更新过程中，在收益没有达到期望水平时，个体将改变当前的策略，策略的更新过程是没有吸收态的马尔科夫过程，因而策略达到均衡状态时的平均丰度受到关注。Wang X J， Gu C L， Zhao J H， et al， “Evolutionary game dynamics of combining the imitation and aspiration-driven update rules”， Physical Review E， vol.100， no.2（2019）， 022411.模仿更新是指个体通过收益比较来决定是否模仿其他个体的策略。Nowak M A， Evolutionary Dynamics： Exploring the Equations of Life， Cambridge： Harvard University Press， 2006.如果个体的收益较小，则该个体更有可能学习更成功个体的策略。然而，并非所有个体都会参照其他个体来更新策略，人们在动物与人类行为生态学中可以普遍观察到基于个体愿景的策略更新行为，比如蚂蚁根据自己的经验寻找食物而不是模仿其他个体。这种自我学习行为被称为愿景更新过程，个体根据从博弈中得到的收益与其期望收益的对比来调整策略。Liu Y K， Chen X J， Wang L， et al， “Aspiration-based learning promotes cooperation in spatial prisoners dilemma games”， Europhysics Letters， vol.94， no.6（2011）， 060002. 王先甲、夏可：《多人雪堆演化博弈在愿景驱动规则下的扩展平均丰度函数》，《系统工程理论与实践》，2019年第5期，第1128-1136页。
　　（三）基于智能算法的学习机制与演化动态
　　基于智能优化算法的学习机制主要是将遗传算法、蚁群算法和粒子群算法等引入演化博弈，利用优化算法来指导参与人的策略选择。由于这些算法具有很好的演化寻优特性，所以采用这种学习机制能很好地模拟参与人的学习行为。比如，Liu和 Wang结合粒子群优化算法与演化博弈的演化特性，提出了一种基于演化博弈的改进粒子群优化算法。Liu W B， Wang X J， “An evolutionary game based particle swarm optimization algorithm”， Journal of Computational and Applied Mathematics， vol.214， no.1（2008）， pp.30-35.
　　基于神经网络的学习机制是利用神经网络来模拟参与人的学习和行为，通过对神经网络进行训练，使神经网络具有演化学习的能力，从而指导参与人的决策。比如，Horie和Aiyoshi将神经网络与博弈论中的纳什均衡概念相结合并将其应用于联想记忆，在神经网络与博弈论之间建立了联系。Horie R， Aiyoshi E， “Neural networks realization of searching models for Nash equilibrium points and their application to associative memories”， IEEE International Conference on Systems， Man， and Cybernetics， San Diego， 1998， pp.1886-1891.
　　（四）其他学习机制与演化动态
　　演化博弈中的其他学习机制与演化动态还包括强化学习、信念学习、贝叶斯学习、老练学习和经验加权吸引力学习等，王先甲、全吉、刘伟兵：《有限理性下的演化博弈与合作机制研究》，《系统工程理论与实践》， 2011年第S1期，第82-93页。王先甲、夏可：《多人雪堆演化博弈在愿景驱动规则下的扩展平均丰度函数》，《系统工程理论与实践》，2019年第5期，第1128-1136页。这类学习机制主要参考了理性程度更高的人类的决策过程。　　强化学习是将个体的学习过程视为试探评价过程，个体选择一个动作作用于环境，环境接受该动作后状态发生变化，同时反馈给个体一个强化信号（奖励或惩罚），个体基于强化信号以正的概率再选择下一个动作。全吉：《具有惩罚策略的公共物品博弈与合作演化》，《系统工程理论与实践》，2019年第1期，第141-149页。选择的动作不仅影响当前的强化值，而且影响环境下一时刻的状态以及最终的强化值，参见Fudenberg和Levine的论著。Fudenberg D， Levine D， The Theory of Learning in Games， Cambridge： The MIT press， 1998.
　　信念学习假设个体根据过去发生的事件来更新他们认为别人会如何行动的信念，从而根据这些信念来决策。一种广泛被接受的模型是“虚拟行动”。在虚拟行动中，个体始终记得另一个个体之前采用每种策略的相对频率。这些相对频率就是对那个个体后续各期行为的信念。个体继而根据这些信念计算各种策略的期望支付，并以较高频率选择能获得较高期望支付的策略。比如，Crawford研究了重复协调博弈中信念学习过程与系统极限状态之间的关系。Crawford V P， “Adaptive dynamics in coordination games”， Econometrica， vol.63， no.1（1995）， pp.103-143.
　　贝叶斯学习利用参数的先验分布和从学习过程中获取的样本信息计算后验分布，使用概率来表示不确定性，通过概率规则实现学习和推理过程。贝叶斯学习的结果用随机变量的概率分布来表示，它可以理解为人们对不同可能性的信任程度。比如，Eichberger研究了两人博弈中个体的初始先验分布与纳什均衡之间的关系。Eichberger J， Haller H， Milne F， “Naive Bayesian learning in 2×2 matrix games”， Journal of Economic Behavior & Organization， vol.22， no.1（1993）， pp.69-90.
　　老练学习假设个体知道自己和他人如何学习，据此可以估计学习模型中的一些参数，但可能会错误估计其他个体的老练程度。个体可以将过去所产生的一切信息转化为知识，从而修正自己的行为。比如，Hyndman研究了协调博弈中老练学习对个体之间协调效率的影响。Hyndman K， Terracol A， Vaksmann J， “Learning and sophistication in coordination games”， Experimental Economics， vol.12， no.4（2009）， pp.450-472.
　　强化学习假定个体不考虑未选策略的支付信息，而信念学习假定个体不考虑自己过去选择的信息。实际上，当这两种信息都可用时，个体都会加以考虑。经验加权吸引力学习综合了二者的主要特征，赋予接收到的支付更大的权重，同时也赋予未选策略支付一定的权重。比如，Camerer和Ho在不同博弈中对经验加权吸引力学习进行了系统研究。Camerer C， Ho T H， “Experience-weighted attraction learning in normal form games”， Econometrica， vol.67， no.4（1999）， pp.827-874.
　　六、結语
　　在经济生活和社会活动中，多人相互作用关系是一种常见现象。当每个个体对自己的预期完全已知时，基于完全理性假设的行为选择是自然且合理的。但是当个体对自己的预期未知时，就会按某种规则选择行为，这反映了个体的选择是有限理性的。这种基于规则选择来研究个体相互作用过程的方法就是演化博弈。在群体博弈过程中，个体会采取某种学习规则学习知识、信息等以确定自身的收益，个体通过学习可以不断改进有限理性。个体的行为选择规则基于其学习机制。因此，学习机制被顺理成章地嵌入演化博弈，其目的是确定对个体更有利的行为选择规则。现实社会中，群体中个体之间关系复杂，且存在一定的差异（即并非均匀混合）。利用复杂网络来描述群体中个体之间的复杂相互作用关系，并在有限理性假设下分析个体的决策机制，可以在一定程度上减轻经典博弈论在预期收益未知情况下分析多人相互作用时面临的挑战，深化人类对此类问题的认识。复杂网络上的演化博弈将成为一个非常有希望的重要研究领域。

其他文献

构建以新能源为主体的新型电力系统框架

构建以新能源为主体的新型电力系统是实现碳达峰碳中和的基础,而新型电力系统是清洁低碳安全高效能源体系的重要组成部分,在新型电力系统中,要逐步实现可再生能源对化石能源

期刊

碳中和碳达峰新能源能源转型电力安全智能电网能源消费储能

完善中国碳市场定价机制破解发展和碳中和的两难

摘要：在实现碳中和的进程中，中国面临发展和减排的两难局面。我国或许可以借鉴第一次工业革命和第二次工业革命的能源供给、交通消纳、金融货币协同发展模式（煤+铁路+英镑、石油+汽车+美元），采用风光新能源+电动车+碳市场背景下的人民币国际化的模式，抓住这千载难逢的新能源发展机遇。在碳中和的进程中，作为市场力量之一，碳市场能够低成本高效率地提升经济效能、能源效率和资金效率。北京绿色交易所通过碳交易和绿色金

期刊

碳中和碳市场绿色金融新能源碳交易碳价格环境权益

复杂网络上的演化博弈及其学习机制与演化动态综述

其他学术论文