基于Double Deep Q Network的无人机隐蔽接敌策略

来源 :电光与控制 | 被引量 : 0次 | 上传用户：chichizhang

【摘要】

：

基于深度强化学习的连续状态空间无人机隐蔽接敌问题,提出了基于马尔可夫决策过程的隐蔽接敌双深度Q网络(DDQN)方法。利用DDQN生成目标值函数的方法解决了传统DQN的过拟合问

【作者】

：

何金丁勇高振龙

【机构】

：

南京航空航天大学自动化学院

【出处】

：

电光与控制

【发表日期】

：

2020年7期

【关键词】

：

隐蔽接敌策略空战决策马尔可夫决策过程双神经网络结构 DDQN算法 stealthy engagement maneuvering strategyair

【基金项目】

：

国家自然科学基金面上项目(61473146)

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

基于深度强化学习的连续状态空间无人机隐蔽接敌问题,提出了基于马尔可夫决策过程的隐蔽接敌双深度Q网络(DDQN)方法。利用DDQN生成目标值函数的方法解决了传统DQN的过拟合问题;采用按优先级随机抽样的方法获取训练样本,加速了神经网络的训练速度;设定贪婪系数按照指数下降的方法,解决了传统强化学习的“探索利用窘境”;在势函数奖赏函数设计中引入角度因子,使其更加符合实际作战情况。仿真实验结果表明,DDQN具有较好的收敛性,能有效生成隐蔽接敌策略。

其他文献

融合描述子的ORB-LBP特征匹配算法

针对ORB算法在匹配过程中存在误匹配率高和鲁棒性差等问题,提出一种融合描述子的ORB-LBP特征匹配算法。该算法首先对输入图像构建金字塔尺度空间,在每一图层上检测oFAST关键点,提高算法的尺度不变性;然后采用图像块代替像素的方法提高LBP算法抗噪性能,同时通过选取最小值法和排序法使其具有旋转不变性;最后在生成rBRIEF-LBP描述子的过程中用128位改进LBP描述算子代替rBRIEF描述算子中

期刊

图像配准特征融合rBRIEF描述子ORB特征LBP描述子金字塔模型image registrationfusion of featuresrBRIE

一种辨别目标与拖曳式诱饵的融合贝叶斯模型

在当今电子战中,有源拖曳式诱饵能够在跟踪雷达的半功率波束内捕获其跟踪分辨单元,并将跟踪门从目标转移到诱饵上来。针对这一问题,雷达抗干扰中迫切需要一种在诱饵干扰下仍

期刊

雷达目标识别抗干扰有源拖曳式诱饵蒙特卡罗马尔可夫链贝叶斯模型radar target recognitionanti-interferencetowe

雷达跟踪误差对指令制导系统制导精度的影响

主要研究了雷达跟踪误差对指令制导系统制导精度的影响。首先对雷达跟踪误差进行建模分析,建立了引入雷达跟踪误差的指令制导回路模型,并得到了简化模型的解析解,根据解析解

期刊

雷达跟踪误差指令制导制导回路脱靶量radar tracking errorcommand guidanceguidance loopmiss dista

并联平台的模糊非奇异快速终端滑模控制

针对六自由度并联平台存在不确定建模误差和外部干扰的轨迹跟踪控制问题,提出一种模糊非奇异快速终端滑模控制方法。采用一种非奇异快速终端滑模面,利用模糊系统的万能逼近特

期刊

并联平台轨迹跟踪非奇异快速终端滑模模糊系统parallel platformtrajectory trackingnon-singular fast t

基于Double Deep Q Network的无人机隐蔽接敌策略

其他学术论文