多智能体博弈强化学习算法及其均衡研究

来源 :西安科技大学 | 被引量 : 4次 | 上传用户:jianjian19527
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
人工智能和多智能体系统在实际应用中会遇到诸如无人驾驶、无人机编队、机器人对抗等智能体与环境交互、智能体与智能体交互的场景。围绕多智能体博弈模型,以马尔科夫博弈或者随机博弈的框架为基础,讨论基于强化学习方法与环境交互寻找纳什均衡的多智能体强化学习算法、基于均衡理论计算纳什均衡的群智能算法两个方面存在的问题,开展以下研究:为改善多智能体纳什Q学习算法适应性不好,条件苛刻,运算复杂,且没有通用的方法更新策略价值等问题,提出算法改进思路。首先,引入联合动作向量简化算法,引入参数,通过参数近似控制状态-行为值函数,转化训练目标,给出参数逼近的值函数更新方程;其次,理论分析了算法的收敛性及可行性;最后,通过实验验证了算法的有效性。仿真结果表明,基于参数逼近的多智能体强化学习算法,能够使智能体100%达到纳什均衡,且能够提高算法性能,简化算法复杂性,比起传统的纳什Q学习算法能够较快收敛。针对智能体参与个数多或者维度稍高的矩阵博弈纳什均衡计算困难,对现有的纳什均衡求解理论进行分析,将求解纳什均衡问题转化为可以利用群智能算法求解的单目标优化问题。为改善现有的粒子群算法计算纳什均衡时精度不高,迭代繁琐,提出算法改进方案:通过分析参数,设计符合求解纳什均衡问题的参数修正方案,给出改进算法的步骤;利用一些测试函数验证改进算法的可行性与有效性;将求解一般矩阵博弈纳什均衡问题进行转化,以改进的算法求解纳什均衡,并实验验证。结果表明,改进的算法求解纳什均衡是可行的,该算法不仅能够有效求解纳什均衡,也提高了计算精度和算法性能。
其他文献
大肠杆菌表达系统,虽然它的载体、受体系统已经比较成熟完善,但其表达产物容易形成包涵体,分泌效率低,此外大肠杆菌是一种潜在病原菌,生长过程中不断释放脂多糖热原物质等内
<正>如今,有这么一批中国手机品牌在海外"攻城略地"并取得了令人瞩目的成绩。每年10月或11月,在印度的"排灯节"前后,印度各路电商都会举办影响力空前的手机促销活动,2017年来
随着社会经济的发展,高校与社会的联系日益密切,高校机动车车辆逐渐上升,对校园停车位的需求只增不减。由于校园停车设施规划的落后,使得校园停车问题日益突出。校园里原有的
研究了粘结式GFRP锚杆的荷载传递机理与岩石边坡加固机理,提出了GFRP锚杆设计的原则、设计主要内容与流程、结构设计基本方法,并将之应用于工程实践.研究结果表明:GFRP锚杆的
配点型无网格法是纯无网格法,它不需要任何背景网格,效率高。本文用加权最小二乘配点方法(Weighted Least-Squares Collocation Method-WLSCM)计算不规则区域热传导问题,形函
金融创新是从20世纪70年代中期开始兴起,具体指期权、期货、利率掉期和交换等一系列的金融工具和手段,一直到90年代,全球金融创新方兴未艾,不仅对各国金融管理机构提出严峻的
“汉语桥”世界中学生中文比赛是针对母语非汉语的海外中学生的一项大型国际汉语比赛,始于2008年,至今已举办了九届。本文主要研究近五届(2012年至2016年)“汉语桥”世界中学
辛弃疾是继苏轼之后“词界革新”的领袖人物,苏轼所开拓的词的园地在他手里得到了最彻底最全面的发掘。他在继承苏轼“以诗为词”的同时,进一步“以文为词”,使其词境界阔大,风格
有机染料的广泛使用导致有色废水显著增加,由于其化学稳定性和不可生物降解性,对环境和人类安全造成了严重威胁。因此,研发新型吸附剂高效去除有机染料在生活中具有十分重要
<正>肠易激综合征(irritable bowel syndrome, IBS)是一组持续存在或间歇发作的,包括腹痛、腹胀、大便习惯改变和性状异常(腹泻、便秘及腹泻便秘交替)等临床表现,而又无形态
会议