论文部分内容阅读
本文针对未来作战将从“信息主导”转变为“智慧主导”的背景,将飞行器看作具有学习和决策能力的智能体,从多智能体对抗的角度来研究飞行器间的实时博弈对抗,为飞行器智能自主飞行、突防以及实现预定目标探索新的思路与方法。首先介绍了本论文研究课题的来源、目的和意义。对飞行器攻防对抗的研究现状进行了综述和总结,分析了当前主要研究方法的缺点。对强化学习和深度强化学习的研究现状进行了总结,概括了强化学习在博弈对抗方面的发展状况,分析了利用强化学习研究飞行器攻防对抗的可行性。建立了攻防对抗场景模型。采用智能小车作为飞行器的控制算法模拟平台,并针对智能小车和飞行器两种研究对象分别建立了运动学和动力学数学模型,构造了攻防对抗场景模型。其中,在智能小车对抗场景中,首先建立了典型的追逃博弈模型,然后重点介绍了疆土防御场景下的一对一和多对多机动突防场景模型的建立;在飞行器攻防对抗场景中,建立了进攻方与拦截器在大气层外飞行时的一对一机动突防场景。重点研究了攻防对抗环境下的强化学习算法。首先简述了连续系统强化学习的理论基础,分析了利用模糊推理系统将连续状态空间和动作空间进行离散化描述的方法以及采用神经网络作为连续状态输入到连续动作输出的函数拟合器的方法。然后采用模糊推理系统对智能小车疆土防御场景的连续状态空间进行了离散划分,结合经典的Q学习算法,提出了基于FQL的智能小车拦截算法;采用多隐层前馈神经网络作为函数拟合器,并针对飞行器机动特点和控制量的形式,提出了基于DQN和DDPG的飞行器突防算法;针对智能小车的几种攻防对抗场景的特点,研究了基于DDPG的智能小车的控制策略;采用深度循环神经网络和多隐层前馈神经网络的结构,提出了基于MADDPG的多智能体突防算法。建立了攻防对抗验证平台。针对智能小车对象,设计了多智能小车攻防对抗演示验证系统的总体方案,并给出了智能小车子系统、室内定位子系统、控制子系统和无线通信子系统的具体实现方案。针对飞行器对象,设计了飞行器攻防对抗三自由度仿真平台的逻辑框架,给出了底层驱动模块和AI接口模块的具体实现方案。进行了算法验证。首先给出了FQL、DDPG、MADDPG算法在智能小车攻防对抗场景中的仿真验证结果,并在实验平台上进行了DDPG算法验证,验证结果表明算法具有很好的可扩展性和适应性。然后进行了基于DQN和DDPG的飞行器突防算法的仿真验证,验证结果表明强化学习算法不仅能够控制飞行器成功突防,而且具有很好的灵活性。