论文部分内容阅读
随着电子战在现代战争中的地位愈加凸显,夺取电磁频谱的控制权已成为战场制胜的关键手段。由于干扰环境的复杂性以及敌方在通信过程中采用多种抗干扰技术、人工智能技术,极大地增加了成功干扰的难度。值得庆幸的是,认知干扰概念的提出,拉近了对抗双方在博弈能力上的差距。特别是将强化学习理论用于通信干扰策略学习,使得干扰设备在与环境的交互过程中不断调整干扰策略,克服了未知因素对学习的影响,并最终实现最优干扰策略的学习。当前对干扰策略的研究仍存在一定的问题,突出体现在耗费过多交互次数以及应用场景局限性。本文针对不同场景下干扰策略的学习方法展开研究,主要研究内容如下:(1)复杂未知的电磁环境致使目标信号的星座图发生不同程度的畸变,经典的最佳干扰策略往往并非最佳。为了学习到受畸变信号的最佳干扰样式,提出了一种针对高阶调制信号的通用干扰样式构造方法,通过正交分解的方式构造不同种类的干扰样式。现有强化学习算法用于最优干扰策略学习,试错次数多,收敛速度慢,论文分别从搜索和预测两个角度提高最优干扰策略学习的时效性。在搜索策略研究方面:(1)利用离散划分后干扰动作之间的相关特性,提出了一种基于正强化学习的干扰策略学习算法,通过提高最优策略被选中概率的方式,减少了学习过程中所需的交互次数。(2)为了降低正强化学习算法中策略选择的随机性,提出了一种基于双层强化学习的干扰策略学习算法,通过增加约束条件的方式缩小最优策略的搜索范围,进一步减少了学习过程中所需的交互次数。(3)为了降低双层强化学习算法中搜索方向的随机性,提出了一种基于局部搜索的干扰策略学习算法,通过逐步逼近最优策略的方式进一步减少学习所需的交互次数,此外还具备了边学习边干扰的能力。仿真实验表明,上述三种基于搜索的干扰策略学习算法所需的交互次数逐渐降低,同时学习过程中的干扰效率逐渐提升。在预测策略研究方面:(1)利用干扰策略值函数曲线单调递增的特点,提出了一种基于单调三次样条插值的干扰策略学习算法,通过非均匀插值的方式分别对值函数曲线进行预测,进而根据预测结果确定最优干扰策略。(2)为了克服插值点选择的难题,提出了一种基于值函数匹配的干扰策略学习算法,利用噪声分布特点事先构造值函数曲线库,然后利用少量样本点并结合正交匹配追踪方法预测真实曲线。(3)结合搜索策略的局部寻优能力以及预测策略的全局规划能力,提出了基于局部搜索和预测值函数的干扰策略学习算法。仿真实验表明,上述三种算法所需交互次数继续减少,该优势增强了强化学习理论在干扰策略学习中的实用性。(2)受到干扰后,为了恢复正常通信,敌方会通过增加功率、切换信道、改变调制样式等方式抵消干扰。此时,为了最大化干扰过程中的累积奖赏,需要学习不同环境状态与干扰动作之间的映射关系。(1)将干扰问题建模为马尔科夫决策过程后,提出了一种基于学徒学习的干扰策略学习算法,算法以干扰经验作为专家策略,以状态特征构造奖赏函数,通过学习特征权值的方式获得新的干扰策略,收敛所需的交互次数远少于常用的Q学习算法。(2)当敌方采用认知无线电技术动态选择接入信道时,提出了一种基于学徒学习的认知无线电干扰策略学习算法,算法以认知用户选择信道的历史记录作为专家策略,利用提出的8种特征表征状态值函数,实现对敌方信道选择策略的预测。仿真实验表明,所提算法能够取得更优的干扰效果。(3)在持续受到干扰后,敌方还会通过改变网络路由的方式规避干扰,此时,仅干扰网络中的单个节点不足以实现通信拒止的目的。(1)为了完成对目标网络的干扰,提出了一种基于改进CUCB算法的多节点干扰策略学习算法,算法采用合理的信度分配方式,利用UCB算法更新节点奖赏信息,通过干扰奖赏值更高的节点实现干扰效果最大化。(2)为了进一步提升网络干扰效果,从网络节点间的相关性出发,提出了一种基于节点相关性的多节点干扰策略学习算法。算法通过构造节点相关性矩阵的方式指导干扰节点选择,并利用交互获得的奖赏对矩阵进行更新。仿真实验表明,提出的两种多节点干扰策略学习算法具有更优的干扰效果以及环境鲁棒性,同时也验证了本文提出的新的网络层奖赏标准的有效性。(4)由于敌方特定通信目标常采用自适应调零天线等手段抵消干扰,此时单部干扰机已无法实现有效干扰,需要多干扰机协同干扰。(1)当多部干扰机之间存在控制中心时,由该中心利用现有的搜索或预测算法学习干扰策略并向受控干扰机分配干扰任务;(2)当多部干扰机以组网方式连接时,提出了基于公约的多干扰机协同干扰策略,在公约约束下,随着交互的进行,各干扰机分工也逐渐明确。(3)当多部干扰机之间因受干扰而无法通信时,提出了一种基于自信心的多干扰机协同干扰策略,干扰机根据各自的干扰行为以及环境反馈更新自信心值,并以该值指导后续干扰行为。仿真实验表明,经过少量次数交互后,以上三种协同干扰策略均能实现对目标信号的有效干扰,具有较高的干扰机利用率。本文研究了不同干扰任务下,应用强化学习理论进行通信干扰策略学习的问题,取得了一定的研究成果,为今后认知干扰的深入研究提供一定的参考价值。