【摘 要】
:
近年来,多智能体系统在多个领域都有广泛应用,多智能体强化学习作为在线学习方式备受关注。但是由于以往多智能体强化学习算法仅仅考虑智能体同时决策情况,并不适用于所有实
论文部分内容阅读
近年来,多智能体系统在多个领域都有广泛应用,多智能体强化学习作为在线学习方式备受关注。但是由于以往多智能体强化学习算法仅仅考虑智能体同时决策情况,并不适用于所有实际应用场景。因此,为存在主智能体和次智能体主从博弈顺序决策的系统设计适用的多智能体学习方法是一个至关重要而又具有创新挑战的任务。在本文中,我们提出了一类基于Stackelberg博弈的多智能体强化学习方法。首先,根据系统学习任务,将智能体分为领导者、跟随者和次跟随者等角色,通过角色分配确定动作决策顺序,结合Q学习算法,本文设计了 Stackelberg Q学习算法。再者,迁移学习是目前应用于多智能体系统以提高多智能体学习和收敛速度的有效手段,本文引入知识迁移,在Stackelberg Q学习算法的基础上,设计了 Stackelberg Q learning with VFT 算法,进一步优化了 算法。认知无线电网络是一种新型的多智能体系统,各个认知用户都可以理解为与环境交互学习的智能体。本文所提算法以认知无线电网络为应用背景,进行了仿真实验验证和应用研究。通过与纳什Q学习算法做对比,证实了 Stackelberg Q学习算法的有效性。之后,验证了迁移学习的引入的确增加了多智能体系统的可扩展性并提高了学习速度。此外,在验证算法可行性的过程中,我们还对相关问题进行了讨论,比如不同的实验参数对系统性能的影响等等。
其他文献
码本模型的思想就是根据像素的颜色失真程度和亮度范围将背景像素值量化后用码本表示,然后利用减背景思想对新输入像素值与其对应像素码本做比较判断,从而提取出前景运动目标
由于海上平台空间及吊装资源的限制,海洋模块钻机的设计越来越趋向于集约化、轻型化、模块化。减小钻井支持模块尺寸及质量的关键问题是如何减小钻井支持模块泥浆泵房的尺寸
我国国有企业改制在20世纪80年代中期就已经开始。按照《公司法》的规定,国有企业改制为股份有限公司或有限责任公司时,必须对企业的资产进行评估,并按照现行国有资产管理办法,根
经过三十年的发展,我国房地产业已经成为国民经济的支柱产业之一,从长远看,人口因素、收入因素和城市化因素会在未来进一步发挥其作用,使房地产行业得到更长足的发展。因此对
针对港口集装箱吞吐量预测工作的实际,在已有的以年份为预测单位的预测方法基础上,提出一种以月份为预测单位的预测方法,并以上海港“十五”期间各个月份集装箱吞吐量统计数
根据中医理论,把类风湿性关节炎分为风湿热、风寒湿、痰瘀互结、阳虚寒凝和阴虚热恋五型, 分别介绍各型采用针灸、中药、西药综合疗法的治疗经验和体会。
为使航运企业降本增效,实现全面、协调、可持续发展,分析航运企业隐性成本成因及给企业控制成本带来的负面影响,提出构建航运企业隐性成本控制体系建议:转变成本控制方式,树
高细比大的立式静置设备,其高度接近或超过现有起重机具的起升高度时,无法采用中心绑扎法吊装。针对这一问题讨论了单点绑扎倾斜吊装脱丁烷塔的有关问题:适合于单点绑扎倾斜
对甲基丙烯酸甲酯(MMA)的主要生产工艺进行了分析和比较,介绍了MMA的国内外生产和市场情况,认为近年来我国MMA市场火爆,产品供不应求。并对异丁烯法制MMA项目进行了投资分析,
<正>现代性是个复杂的概念,这里强调的是"现代性表达了人类对自身的认识达到了一个崭新的阶段,人类不仅反思过去,追寻未来,同时也是自我的内在性和行为的后果……现代性与其