基于Double Deep Q Network的无人机隐蔽接敌策略

来源 :电光与控制 | 被引量 : 0次 | 上传用户:chichizhang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基于深度强化学习的连续状态空间无人机隐蔽接敌问题,提出了基于马尔可夫决策过程的隐蔽接敌双深度Q网络(DDQN)方法。利用DDQN生成目标值函数的方法解决了传统DQN的过拟合问题;采用按优先级随机抽样的方法获取训练样本,加速了神经网络的训练速度;设定贪婪系数按照指数下降的方法,解决了传统强化学习的“探索利用窘境”;在势函数奖赏函数设计中引入角度因子,使其更加符合实际作战情况。仿真实验结果表明,DDQN具有较好的收敛性,能有效生成隐蔽接敌策略。
其他文献
针对ORB算法在匹配过程中存在误匹配率高和鲁棒性差等问题,提出一种融合描述子的ORB-LBP特征匹配算法。该算法首先对输入图像构建金字塔尺度空间,在每一图层上检测oFAST关键点,提高算法的尺度不变性;然后采用图像块代替像素的方法提高LBP算法抗噪性能,同时通过选取最小值法和排序法使其具有旋转不变性;最后在生成rBRIEF-LBP描述子的过程中用128位改进LBP描述算子代替rBRIEF描述算子中
在当今电子战中,有源拖曳式诱饵能够在跟踪雷达的半功率波束内捕获其跟踪分辨单元,并将跟踪门从目标转移到诱饵上来。针对这一问题,雷达抗干扰中迫切需要一种在诱饵干扰下仍
主要研究了雷达跟踪误差对指令制导系统制导精度的影响。首先对雷达跟踪误差进行建模分析,建立了引入雷达跟踪误差的指令制导回路模型,并得到了简化模型的解析解,根据解析解
针对六自由度并联平台存在不确定建模误差和外部干扰的轨迹跟踪控制问题,提出一种模糊非奇异快速终端滑模控制方法。采用一种非奇异快速终端滑模面,利用模糊系统的万能逼近特