【摘 要】
:
本文主要研究基于群体智能和强化学习算法求解Nash平衡.首先,将免疫记忆、自我进化机制引入到量子粒子群算法中设计一种求解Nash平衡的新型协同免疫量子粒子群算法,通过概率浓度选择公式来保持种群的多样性,证明该算法是依概率收敛的.其次,将协同免疫量子粒子群算法分别应用于求解n人非合作有限博弈的Nash平衡和广义博弈的Nash平衡.最后,从强化学习的角度出发,针对多智能体随机博弈考虑用强化学习算法求解
论文部分内容阅读
本文主要研究基于群体智能和强化学习算法求解Nash平衡.首先,将免疫记忆、自我进化机制引入到量子粒子群算法中设计一种求解Nash平衡的新型协同免疫量子粒子群算法,通过概率浓度选择公式来保持种群的多样性,证明该算法是依概率收敛的.其次,将协同免疫量子粒子群算法分别应用于求解n人非合作有限博弈的Nash平衡和广义博弈的Nash平衡.最后,从强化学习的角度出发,针对多智能体随机博弈考虑用强化学习算法求解其Nash平衡.全文分为5章,具体内容如下:第一章是引言部分,主要介绍了博弈论的研究背景及意义,群体智能算法和博弈学习的研究现状.第二章主要研究协同免疫量子粒子群算法求解n人非合作有限博弈.将信息共享机制、自我进化、免疫记忆加入量子粒子群算法中设计了协同免疫量子粒子群算法,通过概率浓度选择公式来保持种群的多样性,并证明了该算法的收敛性质.数值算例结果表明该算法是有效的.第三章主要研究协同免疫量子粒子群算法求解广义博弈Nash平衡.首先,通过用KKT条件将广义博弈Nash平衡问题转化为非线性互补问题,然后使用补函数方法将KKT条件中的互补性条件转化为非线性方程组问题,最后构造恰当的适应度函数用协同免疫量子粒子群算法求解广义博弈Nash平衡,通过数值算例结果的分析与比较说明该算法是有效的.第四章主要研究一类多智能体随机博弈Nash平衡的实现问题.基于强化学习的思想,通过Python来仿真和计算在特定环境下智能体寻找Nash平衡的过程,分别使用含基准项的随机梯度算法和值函数迭代算法仿真多臂赌博机问题和规划博弈的Nash平衡.第五章对全文进行总结与展望.
其他文献
本研究是开展“适合的教育”的一项探索,在了解学生学习风格的基础上,寻找与之相匹配的教师教学方式,探究二者的匹配性对学生学习的影响,并关注学业情绪在这一影响中的调节作用,其中,教师教学方式在本研究中具体是指教师情绪表达的方式。共分为两个子研究,研究一采用问卷法和实验法,对山东某实验中学的191名初一学生进行实验研究和问卷调查,实验采用2(教师情绪表达:激情型、平静型)×3(学生学习风格:理智型、情绪
酚醛泡沫作为第三代保温材料,具有阻燃性好、无毒低烟、热稳定性好等特性,被广泛应用在建筑、石油化工设备、电器管道、交通工具等领域。但酚醛泡沫材料具有脆性大韧性低等缺
随着我国经济的快速发展,物质生产水平得到极大提升,与其相适应人们对生活品质的追求也逐渐提高。对高品质生活尤其是对优质绿色的农产品的不断追求,其体现在商品经济社会即是消费结构的变化和升级,而消费结构又是对现实的人的需求的最直接体现,由此可以看出,我国农产品的供给与需求出现割裂,农业供给侧结构性改革应运而生。此次改革的目的表面来看是改革农业生产现状以此适应需求结构的变化,实际上,是通过对影响农业生产力
氧化锆作为一种具有高硬度,高强度,高韧性,高耐磨性和高耐化学腐蚀性等物理和化学性能的材料,在陶瓷方面有非常大的应用与研究潜力。氧化锆(ZrO_2)存在三种结构多态性:单斜相(m)、四方相(t)和立方向(c)。随着温度的升高或加入适当的掺杂剂,可以发生从单斜向四方再向立方的相变。在室温条件下,可以用多种不同的掺杂价来稳定ZrO_2的高温四方相或立方相。三种氧化锆多晶型与不同的掺杂剂共同作用,形成了具
随着互联网技术的蓬勃发展,网络上存储的信息也越来越丰富。人们每天都会接触到海量的视觉信息,但通过搜索引擎很难搜索到自己真正需要的图像。文本生成图像系统允许用户通过输入文本描述信息,自动生成与之相符的图像并返回给用户。这样的搜索方式能更好地响应人类个性化品味的需求。2014年,生成对抗网络横空出世,开启了图像生成领域的新篇章。文本生成图像任务也受到越来越多研究人员的关注,其最大的挑战是生成真实、多样
随着经济全球化的不断深入,外商直接投资(FDI)对东道国经济发展的促进作用越来越受到各国和地区的重视,从而也衍生出越来越多的关于外商直接投资影响因素的研究。学术界普遍认为,影响中国FDI流入的因素有劳动力成本、市场规模、贸易开放程度等。1995年《与贸易有关的知识产权协定》生效之后,更是掀起了知识产权(IPR)保护对于FDI流入影响研究的热潮。然而,IPR保护对于FDI流入的作用方向至今尚未形成统
本文认为人民币区域化不是人民币国际化的缩小版,并以此为基础开展对推行人民币区域化现实条件的研究。全球金融危机引起世界各国对现行国际货币体系的质疑,美元国际地位受到冲击。只有国际货币体系和金融体系改革才能各国应对危机的需求。为此,我国开始推行人民币国际化。经济的快速发展、国际地位的提高,推动人民币国际化快速发展。从2016年10月1日人民币正式加入特别提款权(SDR)可以看出人民币国际地位进一步提高
车牌识别作为智能交通系统的一项核心技术,已广泛应用于高速收费口和公路卡口等特定的场景。然而在光照弱、分辨率低、倾斜角度大以及大范围背景干扰等复杂多变的环境下,现有车牌识别系统的性能仍然不能满足应用的要求。本文开展基于深度Faster-RCNN的车牌识别算法的研究具有重要的应用价值。车牌识别包括车牌区域检测和车牌号码识别两个部分。本文主要贡献如下:首先,将车牌区域检测看作是车牌区域和背景区域的两类目
拉布、裁剪是服装加工生产过程中的重要工序,拉布工序是将卷状原材料按照设计长度拉出并平铺于裁剪板上,拉布效率、拉布精度、拉布平整度等将直接影响后续裁剪工序质量。现有服装厂一般使用自动拉布机来完成拉布工序,但现有主流拉布机均为国外仿造,存在控制精度低、交互界面不友好、价格昂贵等缺点,同时随着现有布料品种不断增加,对拉布机的控制要求也越来越高,特别是弹性面料及光滑面料的拉布,由于不同布料表面光滑度及弹性
随着租赁经济的发展,设备“以租代买”成为新的潮流趋势。同时,随着现代工业技术的发展与进步,设备日益向大型化、高速化、自动化、智能化、复杂化方向发展,这对设备维护的专业化也提出了更高的要求。这两种潮流促使以设备租赁代替设备购买、以设备出租方为主体的租赁维护代替以设备承租方为主体的自主维护的设备管理模式蓬勃兴起。在设备租赁过程中,成本控制作为企业管理的重要环节,对设备租赁双方至关重要。科学有效的成本管