【摘 要】
:
尽管现在的强化学习技术比较成熟,但是由于训练过程无任何先验知识,随着任务复杂度提高,训练时间也随之增长,这就限制了强化学习技术应用的任务场景。因此,将相似任务的训练结果作为先验知识模型提供给新的强化学习任务,从而解决强化学习对大量训练样本的依赖问题,提高强化学习算法的可用性和普适性,具有重要的理论意义和实际意义。针对上述研究点,本文开展了以下研究与创新:(1)提出基于先验知识模型的策略迁移方法,降
论文部分内容阅读
尽管现在的强化学习技术比较成熟,但是由于训练过程无任何先验知识,随着任务复杂度提高,训练时间也随之增长,这就限制了强化学习技术应用的任务场景。因此,将相似任务的训练结果作为先验知识模型提供给新的强化学习任务,从而解决强化学习对大量训练样本的依赖问题,提高强化学习算法的可用性和普适性,具有重要的理论意义和实际意义。针对上述研究点,本文开展了以下研究与创新:(1)提出基于先验知识模型的策略迁移方法,降低算法框架对训练样本的依赖;(2)提出应用先验知识模型的算法框架,保证强化学习训练经验的可复用性;(3)提出了基于动力学模型的任务相似度计算方法,保证策略迁移的有效性。本文首先根据基于模型和无模型的强化学习算法的训练特点,设计了先验知识模型。先验知识模型通过模仿学习将基于模型控制的策略迁移至神经网络,作为无模型算法的初始策略,进行策略优化。先验知识模型能够将基于模型算法的训练成果引入无模型算法中,与随机策略初始化相比,能有效降低达到相同任务表现所需的训练样本。针对源任务与目标任务相同的场景,本文基于先验知识模型的理论研究,实现了整合基于模型和无模型的强化学习算法的各自优势的算法框架。该算法框架为基于模型和无模型算法的组合使用提供了稳健方法,在模拟环境的智能体前进姿态学习任务中实现了良好的效果。与随机策略初始化相比,本文的算法框架最高达到了3倍的样本效率。针对低维源任务与高维目标任务的场景,本文进一步提出了基于动力学模型的任务相似度计算方法。在本文的算法框架中,不同任务的动力学模型基于相同隐藏层结构的神经网络实现。通过计算隐藏层权重矩阵的差异程度,可以比较源任务与目标任务的动力学模型的相似程度,进而可以获得两者的任务相似度。任务相似度可以作为低维先验知识模型的组合权重,保证了利用算法框架进行相似任务间知识迁移的可靠性。最后,本文在模拟环境的前进姿态学习实验中,测试了不同维度的任务训练经验迁移效果,验证了本文设计实现的基于先验知识模型的强化学习控制算法的实用性。与随机策略初始化相比,本文的算法框架最高达到了2倍的样本效率。
其他文献
随着近年来作战仿真技术的飞速发展,基于仿真技术的指挥训练能够有效提升人员训练的训练效果和组织效率。而在军队信息化水平逐步提升的过程中,作战力量呈现小型化和多能化的发展趋势,使得以分队为主体的基本作战单元的地位更为重要。研究分队级作战仿真系统,以弥补传统军事训练中对抗性弱等缺点,对于提高营、连、排一级指挥员的指挥技能有着重要的意义。构建逼真的计算机兵力(Computer Generated Forc
航天器追逃博弈是当前轨道力学领域的一个研究热点,传统上多采用微分对策来获取追逃双方的最优控制策略,但是这种方法存在求解过程复杂、计算繁琐的缺点,难以满足对抗任务的强实时性要求。人工智能技术发展的不断深入使得利用人工智能实现全部或部分的在线决策成为可能,本文研究了基于深度神经网络和强化学习算法生成空间目标追逃博弈最优控制策略的问题,实现智能、自主、快速的航天器追逃博弈机动轨道在线自主规划。论文的主要
火灾是一种破坏性强、蔓延速度快、难以控制的自然灾害之一,第一时间对火灾进行预警,能够最大限度地减少火灾带来的损失。随着人工智能技术的发展,基于视觉的智能检测技术给火灾预防提供了新思路。相比于传统的检测方法,基于视觉的火灾检测具有监测范围广、可视效果好、预警速度快等优点。火灾发生早期,往往伴随着烟雾的出现,烟雾检测识别显得尤为重要。本文从解决现实存在的烟雾检测问题着手,结合烟雾的静态和动态特征,改进
二维材料优异的光学特性,为突破传统瓶颈,发展新型高性能光子器件提供了可能。本论文以增强和调控光与二维材料相互作用为主线,围绕二维材料光子器件开展了多项原理结构设计,并探索了一系列具有创新性的应用。论文的主要工作如下:1、提出了一种可同时工作在近红外和中红外波段的金属-石墨烯混合结构表面等离激元传感器。该传感器的灵敏度和品质因子不亚于先前所报道的工作。这种混合结构将为未来的多用途高性能折射率传感器提
闭环控制系统是指存在被控的输出以一定方式返回到作为控制的输入端,并对输入端施加控制影响的系统,又称反馈控制系统。由于其可以有效地提高系统的鲁棒性,减小外界因素对系统的干扰,故闭环控制系统在生活生产以及航空航天领域等得到了广泛的应用。闭环控制系统控制领域的一个难点问题之一是对其系统发生故障时的检测与识别。然而,由于闭环控制系统固有的反馈调节机制,使得故障噪声比变小,给闭环控制系统故障检测增加了难度;
在现代声纳系统中,水下目标的自动识别一直是研究的关键技术之一。近年来,随着计算机技术的兴起,基于机器学习的分类识别方法在水声领域得到了应用研究,并取得了良好的效果。与传统单基地主动声纳和被动声纳相比,多基地主动声纳具有自己独特的优点,近年来成为声纳技术的研究热点之一。那么,多基地声纳水下目标识别技术也值得开展相关的研究探索。论文主要研究内容包括:1、水下目标瞬态信号声散射场的数值计算方法与仿真实现
建设海洋强国是全面建设社会主义现代化强国的重要组成部分,海洋大数据作为基础战略资源,是衡量一个国家海洋监管能力的重要标志,随着信息技术的迅猛发展,以卫星海洋遥感数据为代表的海洋数据规模呈现爆炸式增长趋势,海洋研究进入大数据时代,如何收集、管理和挖掘海洋数据是世界各海洋强国研究的重点方向。本文以国防科技大学研制的天拓三号卫星收集的天基AIS数据作为数据支撑,结合机器学习相关算法,从分类、聚类和回归三