基于强化学习的认知无线网络跨层设计及优化研究

来源 :国防科技大学 | 被引量 : 0次 | 上传用户:NF_Frankie
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的飞速发展,新型无线通信设备呈现爆发式增长,用户对通信质量和服务体验的要求也不断提高。为同时支持更多用户并实现更高的数据传输速率,通信业务对带宽和频谱占用的需求越来越高,由此造成频谱资源匮乏的问题日益严重。认知无线电采用动态频谱接入技术,能够通过时域、空域和频域的多维复用极大地提升频谱利用率,从根本上解决频谱资源的稀缺与不足。为增强系统的鲁棒性与灵活性,认知无线网络一般采用分布式架构,网络层的路由选择与媒体接入控制层的频谱分配联系紧密,为设计高效的动态路由与资源管理方案带来了新的挑战。为克服先验信息缺乏以及无线环境和网络拓扑结构动态变化等问题,本文采用强化学习方法对认知无线网络跨层设计进行了研究,主要包括源节点与中继节点异质、网络中所有节点同构、系统中存在成熟策略节点以及网络中存在恶意干扰节点等不同场景下路由选择与资源管理的联合优化策略。主要研究工作如下:(1)针对网络先验信息缺乏以及传统学习算法在系统状态空间较大时性能不佳等问题,在源节点与中继节点异质的网络场景中将单智能体深度强化学习应用于大规模认知无线网络的跨层路由设计中,提出一种基于内存优化型深度Q学习的联合路由设计与资源管理策略。首先引入路径责任等级的概念,将庞大的动作空间转化为大规模状态空间,并实现端到端延迟与系统能量效率之间的平衡。随后,提出基于内存优化的深度Q网络(PM-DQN),通过周期性擦除记忆库中TD-error值较低的经验元组,在降低平均内存占用的同时实现优先经验回放。最后,针对网络中节点异质的特点设计了一种基于单智能体框架的跨层路由协议,将PM-DQN应用于联合路由设计与资源管理中。仿真结果表明,该方案在不需要先验信息的前提下有效解决了大规模认知无线网络的跨层路由设计,并在降低内存占用的同时取得了较小的路径延迟和较高的能量效率。(2)针对网络中所有节点同构的场景,将多智能体学习策略应用到路由选择与资源管理联合设计中,提出两种基于多智能体强化学习方法的跨层路由协议。首先设计了一种基于策略推测型多智能体Q学习的平面路由协议,通过引入单跳责任等级的概念大幅压缩跨层优化问题的动作空间,并取得单跳延迟与节点能量消耗之间的折衷。随后,将跨层设计问题建模为一个半合作式随机博弈,并提出一种基于等奖励时隙的策略推测型多智能体Q学习算法(ERT-CMAQL)求解该博弈的纳什均衡,算法采用经验回放机制更新推测置信量,打破了更新过程中数据间的强相关性并提高了数据利用效率。仿真结果表明,该方案在学习速率、传输实时性和系统鲁棒性等方面均优于传统学习策略。当网络中节点密度较大时,提出一种基于能耗权重分簇算法的层次路由协议。首先,引入能耗权重的概念,提出基于能耗权重的贪婪式分簇算法以实现簇内通信能量消耗的最小化。随后,应用Double Q学习框架改进了ERT-CMAQL算法,并对簇间通信的路由选择和资源分配进行联合优化。仿真结果显示,该方案的数据包传输延迟和能量消耗远低于平面路由协议。(3)针对时延和能耗敏感型应用,在网络中存在成熟策略节点的场景下,将学徒学习策略应用到跨层路由设计中,提出两种基于学徒学习的路由选择和资源管理联合优化方案。在源节点和中继节点异质的场景中,针对网络中新生成数据源的情况,提出一种基于内存优化型学徒学习的联合路由设计与资源管理方案。首先引入强化型路径责任等级的概念,通过多级跃迁机制提高功率分配效率。随后提出基于专家演示数据的内存优化型深度Q学习(PM-DQf D)算法,周期性擦除经验库中低质量的自主生成数据和过时的专家演示数据,释放内存空间并优化数据结构。最后,构建了一种基于单智能体框架的跨层路由协议,将PM-DQf D算法应用到路由选择与资源管理联合优化中。仿真结果显示,该方法在学习速率、数据传输质量和网络可靠性等方面都优于传统强化学习方案。在网络中所有节点同构的场景下,针对新节点加入网络的情况,提出一种基于多专家演示型学徒学习算法的跨层路由协议。首先,通过引入强化型单跳责任等级提升功率自适应分配效率。随后提出半径自适应型Bregman球模型,保证地理位置偏远的认知用户能够找到合适的专家节点。最后,为避免单一专家经验缺陷造成的策略偏置,设计了一种基于多专家演示数据的深度Q学习算法。仿真结果表明,较传统多智能体强化学习策略,该方案的训练周期、路径延迟和系统能量消耗率都较小。(4)针对认知无线网络协议架构复杂、易受恶意用户攻击的问题,在网络中存在恶意干扰节点的场景下,从网络的整体性能出发提出一种基于端到端性能的多跳认知无线网络抗干扰决策算法。首先,抗干扰策略将路由选择考虑在内,充分发挥分布式网络鲁棒性的优势。随后,将双门限判决机制引入强化型路径责任等级,提升功率分配过程中的稳定性。最后,结合多跳网络中节点受干扰特点,将基于竞争架构的深度Q网络应用到抗干扰决策中。仿真结果表明,该方案无论在常规干扰模式还是智能干扰模式下的端到端性能均优于传统抗干扰算法,且带来网络鲁棒性与可靠性的大幅提升。
其他文献
全息雷达是一种应用数字阵列技术的新体制雷达,采用低增益宽波束发射,同时多波束接收,可实现时域、空域的连续覆盖。由于无需进行波束扫描,全息雷达可获取较长的积累时间和较高的多普勒分辨率,适用于强杂波、低RCS、多目标等复杂探测情形,具有较好的应用前景。本文就全息雷达长时间积累目标检测算法及工程化实现技术展开研究,主要内容如下:第二章主要阐述了全息雷达基本信号处理流程及相关理论。对全息雷达的概念及工作原
量子计算是利用量子力学特性完成计算任务的新型计算技术,其对某些重要问题的求解性能远优于经典计算。量子优势又称为量子霸权1,代表量子计算的一种计算能力水平:在某些问题的求解上,可控量子计算设备能够实现超越所有经典计算机的性能。实现量子优势,意味着量子计算的计算能力从理论走到实证,是量子计算发展历程中的一个重要里程碑。量子优势的实现标准评估,即评估经典计算机在特定量子优势计算问题上的极限性能,是当前量
在现代信息化战争中,雷达作为主要的电子信息装备已成为决定战争成败的关键因素。自20世纪50年代以来,学者们逐渐意识到雷达目标的极化散射特性蕴含了丰富的目标姿态、尺寸、形状、材料等物理特征信息,充分利用该信息可有力提升雷达目标检测、抗杂波/干扰、目标成像和分类识别的能力。雷达目标的极化散射特性是目标的固有属性,该特性可通过极化散射矩阵(Polarization Scattering Matrix,P
对于航空等生命安全用户而言,导航系统的完好性是必须要考虑的一项指标。星基增强系统作为传统GNSS系统的“补丁”,能够对基本导航系统提供精度及完好性增强。电离层特性建模及完好性参数估计问题一直是星基增强系统(Satellite Based Augmentation System,SBAS)领域研究的重点。现有的SBAS电离层模型及增强参数估计都是基于美国本土区域数据展开的分析,其结果直接应用于北斗星
在现代计算机系统中,浮点数是实数使用最为广泛的近似之一,集成大量浮点运算的浮点程序作为基本运算模块为上层软件系统提供计算支撑。然而,浮点运算作为实数运算的近似,本质是不精确的,同时浮点运算也是非自包含的,导致浮点程序出现精度缺陷和浮点异常。由于浮点程序对应输入空间巨大,而触发精度缺陷和浮点异常的输入分布并无特定规律,导致精度缺陷和浮点异常难以检测。人工修复浮点程序中的精度缺陷和浮点异常也非常困难,
相控阵雷达具有波束快速切换的巨大优势而受到广泛关注,同时,结合数字波束形成技术的数字阵列雷达是未来的发展趋势。但是,相控阵雷达及数字阵列雷达的高成本限制了其快速推广及广泛应用。将切换天线阵列技术应用于雷达系统可以有效缩减发射端及接收端的通道数量,进一步降低数字阵列雷达硬件的成本、功耗及体积。对于静止目标,传统的数字波束形成算法及超分辨空间谱估计算法可直接用于切换天线阵列雷达实现角度估计。但是,对于
无人机系统是未来战争中进行信息对抗、信息窃取、实施火力打击的重要手段,其中惯性导航系统(Inertial Navigation System,INS)/全球卫星导航系统(Global Navigation Satellite System,GNSS)的组合导航系统应用使得无人机具备了精确导航、制导与控制的能力。但是作为无人机必备导航部件之一的卫星导航系统却极易受到来自敌对力量的恶意干扰,很多国家将
现代战争中,无源定位技术是获取电子情报、掌握战场电磁态势的重要手段之一。传统两步定位法先估计定位参数,例如到达角、到达时差和到达频差等,再利用这些定位参数估计辐射源位置。相对于两步定位法,直接定位法(Direct Position Determination,DPD)不估计定位参数,实现了从原始采样信号到辐射源位置的一步估计,具有可对同时同频信号进行定位、无需参数关联、低信噪比下定位精度高等优势。
物理层安全是在无线通信信道中实现收发双方所传递数据达到信息论意义上安全的一个新颖而又极具吸引力的研究方向。与传统经典加密方式相比,物理层安全可以根据无线信道自身的固有特性而不是依赖于通信更高层的安全方案,达到扰乱窃听者接收质量的目的,从而确保通信安全。无线通信中利用多天线和多载波所提供的空域、时域和频域自由度,可以在提高通信信道性能的同时,削弱窃听信道性能。因此,本文主要讨论基于多天线和多载波的物
空间目标威胁评估、空间碎片碰撞预警、近地空间探测等多方面的应用都要求对空间目标进行精细化测量。雷达能够全天时、全天候获取空间目标的丰富信息,是空间目标监视和识别最为有效的技术途径之一。增大雷达发射和接收信号的带宽,结合适当的逆合成孔径雷达(Inverse Synthetic Aperture Radar,ISAR)成像技术,即可提升ISAR图像的分辨率。宽带雷达数字接收机能够对中频信号甚至射频信号