基于深度强化学习的多智能体策略优化研究

来源 :天津大学 | 被引量 : 0次 | 上传用户:jiangchong122
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,关于深度强化学习的研究受到了广泛的关注并取得了大量的研究成果。如何有效促进智能体进行策略优化是深度多智能体强化学习领域的重要研究问题,然而,在有效地解决多智能体环境下的策略优化问题方面,仍存在一定的局限性与挑战。首先,从环境的角度,既有的深度强化学习算法对于环境中多元感知信息的处理存在一定的局限性;其次,从强化学习算法的角度,既有算法存在估值偏差的局限性以及对奖赏值中噪声处理的局限性;最后,从多智能体系统的角度,既有算法在面对独立学习智能体时,存在难以实现策略协同优化的局限性,以及面对非静态对手时,存在对手判别不准确的局限性。针对上述挑战,本文聚焦于基于深度强化学习的多智能体策略优化研究,从环境、强化学习算法以及多智能体三个角度展开,对既有算法存在的局限性进行分析,并提出相应的解决方法。论文的主要工作内容如下:首先,本文考虑多模态信息输入的智能体策略优化问题,针对既有算针对多源感知信息输入的局限性,提出了基于分离式多模态输入的强化学习框架,拓展了强化学习算法处理多模态输入的能力。进一步,针对一般注意力机制对多模态信息输入权重分配的局限性,提出了层次注意力机制,实现了多模态间以及模态内的注意力权重分配,增强了多尺度的特征提取能力。最后,针对LSTM网络处理多模态输入的局限性,对LSTM进行了拓展,提出了基于多信息流的LSTM网络结构,实现了对多源信息输入的有效处理。本研究增强了既有算法处理多模态信息输入的能力,有效地利用多模态信息实现智能体的策略优化。其次,本文考虑了噪声环境下独立学习智能体的估值纠偏与策略优化问题,针对强化学习算法存在估值偏差的局限性,提出了基于双权估计器的WDDQN算法,实现了有效的估值纠偏。接着,针对既有算法对奖赏值中噪声处理的局限性,提出了奖赏值网络RN实现了有效的降噪。同时,针对多智能体环境中,既有算法难以促进独立学习智能体实现协同收敛优化的局限性,提出了宽容的奖赏值网络LRN,有效的促进智能体之间的协同策略优化。最后,针对多智能体系统中策略优化效率偏低的局限性,提出了调度经验回放策略SRS,有效地提升了策略优化的效率。综上,本研究有效地实现了深度强化学习算法的估值纠偏,促进了多智能体间策略协同优化,以及帕累托最优纳什均衡策略的求解。最后,本文考虑了面向非静态对手环境下的多智能体策略优化问题,针对多智能体环境下非静态对手的挑战以及既有算法使用单一策略来应对非静态对手的局限性,提出了基于贝叶斯策略重用的deep BPR+算法,有效应对非静态对手的复杂行为。提出使用对手模型来构建修正的置信模型RBM,从奖赏值信号和对手行为型号双重角度实现准确的对手策略检测。此外,提出使用蒸馏策略网络DPN作为应对策略库,实现了对未知策略的快速学习、高效的策略存储与重用。综上,本研究实现了准确的对手类型检测以及高效的策略重用,对于应对多智能体环境下非静态对手的多智能体策略优化问题具有一定的指导意义。综上,本文以基于深度强化学习的多智能体策略优化为研究目标,从环境、强化学习算法以及多智能体系统三个角度展开研究,深入探讨了面向多模态感知信息输入的智能体策略优化问题、面向噪声环境下独立学习智能体策略优化问题,以及面向非静态对手环境下的策略优化问题,并通过实验论证了本文研究成果的有效性。本研究兼顾工程实践与科学研究,对使用强化学习算法解决实际问题起到了一定的指导作用。同时,为多模态强化学习、独立学习智能体的策略优化、帕累托最优纳什均衡策略的求解以及应对非静态对手等领域提供了一定的参考价值。
其他文献
迄今为止的各种论述经脉循行线的有关文献在描述足三阴腹胸段体表循行线时,均以《灵枢·经脉》原文用来解释。追溯足三阴早期医学文献,最早见载于《帛书·经脉》一本和《帛书
会议
充足的水分条件对植物的生长发和育极为重要。水分亏缺不仅影响植物的地理分布、限制植物生长,还会威胁粮食安全。小麦(Triticum aestivum)是重要的粮食作物,其生长过程常伴
目的:先天缺牙分为综合征型(syndromic tooth agenesis,STA)和非综合征型(non-syndromictoothagenesis, NSTA)。少汗型外胚叶发育不全(Hypohidrotic ectodermal dysplasia,HE
会议
在移动生活中,运营商会被动地记录大量与行为相关的日志记录。日志包括通话、短信及流量使用时产生的时间、地点等信息,但不包含具体的通信内容。这些数据有助于运营商研究客
目前对于农产品食品安全和品质的方面的需求越来越高,越来越多的农产品相关企业开始建立农产品溯源系统,这些系统界面简单,操作方便,对于市场的监管和消费者的需求都给予了很好的支持。这些系统也存在数据易被篡改、信息不透明、源头信息采集难等问题。本文通过对这些系统模型进行分析,并且结合当前存在的问题进行需求分析,提出了基于区块链的农产品集成供应链模式溯源模型,具体研究如下:(1)农产品集成供应链管理模式溯源
目的:1.本研究通过对抗利尿激素分泌不适当综合征(SIADH)患者进行临床资料的收集、数据整理、统计分析,探讨SIADH的中医症候分布规律,为进一步探索SIADH的中医辨证治疗奠定基础;2.观察内科治疗SIADH患者各证型的血钠达标情况,为中医临床治疗SIADH提供依据。方法:选取山东大学附属省立医院2010年4月至2018年11月收治的73例SIADH患者,对其进行回顾性分析,采用数据统计分析来
目的:核桃(Juglans regia L.)是我国重要的经济林树种,研究核桃的花芽分化对于其品种改良、提质增产具有重要意义。先前的研究表明,一些GRAS(GIBBERELLIN-INSENSITIVE,Repres
极化合成孔径雷达(Polarimetric Synthetic Aperture Radar,PolSAR)是建立在传统合成孔径雷达(Synthetic Aperture Radar,SAR)上的新体制雷达,它不仅具有全天时、全天候、远
大学生群体是网络消费中不可忽视的一支主力军。本文从心理账户的角度探究该群体在进行网络消费的冲动性,主要采用问卷调查的方法,对大学生网络消费冲动性进行了初步探究,重
生活就是教育,教育就是生活,行为课程的精髓就在于此,与《幼儿园教育指导纲要》中强调的"既贴近幼儿的生活,又有助于扩展幼儿的经验"理念一致。课程来源于生活,也决定了生活
会议