论文部分内容阅读
融合作战体系的最新研究成果与认知电子战密切相关。如今,无人作战飞机(Unmanned Combat Aerial Vehicle,UCAV)作为军用领域的最佳的决策载体,仅靠人工操控已难以应对作战时的复杂态势变化。在模型端,外场试验数据的保密性导致系统的仿真结果无法从实例中获得有效的反馈;在算法端,智能决策算法的低自主水平让UCAV无法适应需求多变的对抗环境。论文将针对序贯的作战决策问题展开系统性的研究:第一,针对UCAV在弱先验下执行端对端导航决策的问题,提出了基于三维(Three-dimensional,3D)态势空间的实时运动框架。首先,采用合适的滤波算法对目标状态进行跟踪和预测,再通过分析UCAV与目标间的相对特征定义态势空间以评估机动的净空域;其次,利用人工势场法(Artificial Potential Field Method,APF)的矢量导航思想设计在约束坐标系中以匀加速度运动产生航路点的办法;最后,利用一步态势预测作为对威胁的判定,为UCAV制定跟踪和避撞决策。仿真结果表明在软着陆跟踪的前提下,该方法仅用姿态角作为输入即可实时地规划出平滑且可飞的航迹。第二,为解决传统目标搜索方法中UCAV对环境适应性差的问题,提出了结合深度强化学习(Deep Reinforcement Learning,DRL)的导航决策方法。首先,结合UCAV的欠驱动运动模型,利用Python搭建了一个完整的认知电子战框架和目标搜索环境“Explorer”;其次,以构建网络的方式,引入部分可观测的马尔科夫决策和自编码变分贝叶斯估计来拟合目标状态的表达;最后,使用特殊的奖赏赋型技巧让深度确定性梯度(Deep Deterministic Policy Gradient,DDPG)算法在搜索环境中得到适配。实验结果表明,该方法成功让智能体从潜在的状态空间中学习到最佳的控制策略,并输出端对端的连续动作决策。第三,针对经典目标跟踪决策在3D动态空间中表现出的弱稳定性,提出了基于DDPG实现的连续动作的导航决策方法。首先,在认知电子战框架中创建目标跟踪环境“Tracker”,并对环境中观测误差导致的机动偏差展开理论分析;其次,在矢量导航的启发下设计智能体的行为奖励以确保DDPG的决策输出是可靠的;最后,利用基于DRL的导航决策框架对复杂环境下的目标跟踪任务进行了仿真验证并取得很好的效果。在行为评估方面,通过对智能体的优质航迹进行模式分割,对其掌握的敏捷机动策略实现了深入剖析。第四,针对传统干扰打击时决策对先验强依赖且缺乏时间连续性的问题,提出了基于空间变化的威胁评估和干扰分配方法。首先,对干扰-雷达过程的雷达阶段和干扰技术、不同干扰技术、不同雷达阶段之间的相互作用进行理论分析;然后,基于可观测的目标特征进行威胁评估,并给出以最小化危险值为核心的目标函数;最后,提出新的演化计算方法来制定协同干扰决策以实现对目标函数的优化。在独立完成对干扰打击模块的性能评估后,与基于DRL的导航决策框架展开联合调试,由此验证UCAV在动态空间中快速制定导航对抗一体化决策的能力。