强化学习在多智能体对抗中的应用研究

来源 :中国运载火箭技术研究院 | 被引量 : 10次 | 上传用户:kaonub
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文针对未来作战将从“信息主导”转变为“智慧主导”的背景,将飞行器看作具有学习和决策能力的智能体,从多智能体对抗的角度来研究飞行器间的实时博弈对抗,为飞行器智能自主飞行、突防以及实现预定目标探索新的思路与方法。首先介绍了本论文研究课题的来源、目的和意义。对飞行器攻防对抗的研究现状进行了综述和总结,分析了当前主要研究方法的缺点。对强化学习和深度强化学习的研究现状进行了总结,概括了强化学习在博弈对抗方面的发展状况,分析了利用强化学习研究飞行器攻防对抗的可行性。建立了攻防对抗场景模型。采用智能小车作为飞行器的控制算法模拟平台,并针对智能小车和飞行器两种研究对象分别建立了运动学和动力学数学模型,构造了攻防对抗场景模型。其中,在智能小车对抗场景中,首先建立了典型的追逃博弈模型,然后重点介绍了疆土防御场景下的一对一和多对多机动突防场景模型的建立;在飞行器攻防对抗场景中,建立了进攻方与拦截器在大气层外飞行时的一对一机动突防场景。重点研究了攻防对抗环境下的强化学习算法。首先简述了连续系统强化学习的理论基础,分析了利用模糊推理系统将连续状态空间和动作空间进行离散化描述的方法以及采用神经网络作为连续状态输入到连续动作输出的函数拟合器的方法。然后采用模糊推理系统对智能小车疆土防御场景的连续状态空间进行了离散划分,结合经典的Q学习算法,提出了基于FQL的智能小车拦截算法;采用多隐层前馈神经网络作为函数拟合器,并针对飞行器机动特点和控制量的形式,提出了基于DQN和DDPG的飞行器突防算法;针对智能小车的几种攻防对抗场景的特点,研究了基于DDPG的智能小车的控制策略;采用深度循环神经网络和多隐层前馈神经网络的结构,提出了基于MADDPG的多智能体突防算法。建立了攻防对抗验证平台。针对智能小车对象,设计了多智能小车攻防对抗演示验证系统的总体方案,并给出了智能小车子系统、室内定位子系统、控制子系统和无线通信子系统的具体实现方案。针对飞行器对象,设计了飞行器攻防对抗三自由度仿真平台的逻辑框架,给出了底层驱动模块和AI接口模块的具体实现方案。进行了算法验证。首先给出了FQL、DDPG、MADDPG算法在智能小车攻防对抗场景中的仿真验证结果,并在实验平台上进行了DDPG算法验证,验证结果表明算法具有很好的可扩展性和适应性。然后进行了基于DQN和DDPG的飞行器突防算法的仿真验证,验证结果表明强化学习算法不仅能够控制飞行器成功突防,而且具有很好的灵活性。
其他文献
由于高能电子辐射的长期照射,新一代太阳X射线探测器硅漂移传感器的探测性能可能发生变化.通过用电子放射源模拟空间电子对硅漂移探测器进行辐射照射试验,以测试电子照射对传
葛浩文是现当代中国文学作品最富盛名的翻译家,近年来其翻译观越来越受到关注。本文尝试从生态翻译理论视角对他的翻译观进行解读,期望能为葛浩文翻译观的研究开拓一个新的视
提出了能测定任何酸、碱溶液各组分浓度的通用计算方程,线性方程组的解直接给出了各组分浓度。
加热炉是石油、化工行业普遍使用的一种加热设备。在加热炉的使用过程中,常常由于结垢而影响其性能,甚至导致失效。炉管作为加热炉的重要换热元件,在运行过程中易结垢而影响加热
经过对都龙矿区污染河流的底泥进行采样分析,分析了底泥质量分数与不同底质粒径的关系及其铅、锌的吸附特性。结果表明,底泥中不同粒径底质的质量分数在垂向不同层次上没有明显
自从1991年Iijima发现碳纳米管(简写为CNTs)以来,碳纳米管以其独特的结构和性能引起广泛关注.碳纳米管由于其独特的结构而具有许多优异的性能,除了在显示器、半导体器件、储氢、传
本文从知识管理的角度提出了企业文档管理系统开发的功能目标和系统架构;分析了主流的系统开发平台和工具及开发过程中必须注意的问题.
基于偏离-份额法对中国13个粮食主产区1980~2012年间粮食产量在稻谷、玉米、小麦和其他作物的结构、区位、竞争力优势及效益等问题进行了实证研究。研究认为:中国粮食主产区
1921年,新桂系中的新生力量与旧桂系势力在百色彻底决裂,黄绍竑、白崇禧与驻扎玉林的李宗仁队伍合并,投靠孙中山的广州国民革命政府,尔后挥戈平桂,统一广西,问鼎中原,成为一
针对电容式微陀螺谐振结构,研究了静电力对谐振频率的影响规律,提出了一种快速收敛的静电力调频算法,建立了微陀螺调频实验系统,该系统采用扫频方法测量谐振频率,利用计算机