论文部分内容阅读
随着信息技术的飞速发展,新型无线通信设备呈现爆发式增长,用户对通信质量和服务体验的要求也不断提高。为同时支持更多用户并实现更高的数据传输速率,通信业务对带宽和频谱占用的需求越来越高,由此造成频谱资源匮乏的问题日益严重。认知无线电采用动态频谱接入技术,能够通过时域、空域和频域的多维复用极大地提升频谱利用率,从根本上解决频谱资源的稀缺与不足。为增强系统的鲁棒性与灵活性,认知无线网络一般采用分布式架构,网络层的路由选择与媒体接入控制层的频谱分配联系紧密,为设计高效的动态路由与资源管理方案带来了新的挑战。为克服先验信息缺乏以及无线环境和网络拓扑结构动态变化等问题,本文采用强化学习方法对认知无线网络跨层设计进行了研究,主要包括源节点与中继节点异质、网络中所有节点同构、系统中存在成熟策略节点以及网络中存在恶意干扰节点等不同场景下路由选择与资源管理的联合优化策略。主要研究工作如下:(1)针对网络先验信息缺乏以及传统学习算法在系统状态空间较大时性能不佳等问题,在源节点与中继节点异质的网络场景中将单智能体深度强化学习应用于大规模认知无线网络的跨层路由设计中,提出一种基于内存优化型深度Q学习的联合路由设计与资源管理策略。首先引入路径责任等级的概念,将庞大的动作空间转化为大规模状态空间,并实现端到端延迟与系统能量效率之间的平衡。随后,提出基于内存优化的深度Q网络(PM-DQN),通过周期性擦除记忆库中TD-error值较低的经验元组,在降低平均内存占用的同时实现优先经验回放。最后,针对网络中节点异质的特点设计了一种基于单智能体框架的跨层路由协议,将PM-DQN应用于联合路由设计与资源管理中。仿真结果表明,该方案在不需要先验信息的前提下有效解决了大规模认知无线网络的跨层路由设计,并在降低内存占用的同时取得了较小的路径延迟和较高的能量效率。(2)针对网络中所有节点同构的场景,将多智能体学习策略应用到路由选择与资源管理联合设计中,提出两种基于多智能体强化学习方法的跨层路由协议。首先设计了一种基于策略推测型多智能体Q学习的平面路由协议,通过引入单跳责任等级的概念大幅压缩跨层优化问题的动作空间,并取得单跳延迟与节点能量消耗之间的折衷。随后,将跨层设计问题建模为一个半合作式随机博弈,并提出一种基于等奖励时隙的策略推测型多智能体Q学习算法(ERT-CMAQL)求解该博弈的纳什均衡,算法采用经验回放机制更新推测置信量,打破了更新过程中数据间的强相关性并提高了数据利用效率。仿真结果表明,该方案在学习速率、传输实时性和系统鲁棒性等方面均优于传统学习策略。当网络中节点密度较大时,提出一种基于能耗权重分簇算法的层次路由协议。首先,引入能耗权重的概念,提出基于能耗权重的贪婪式分簇算法以实现簇内通信能量消耗的最小化。随后,应用Double Q学习框架改进了ERT-CMAQL算法,并对簇间通信的路由选择和资源分配进行联合优化。仿真结果显示,该方案的数据包传输延迟和能量消耗远低于平面路由协议。(3)针对时延和能耗敏感型应用,在网络中存在成熟策略节点的场景下,将学徒学习策略应用到跨层路由设计中,提出两种基于学徒学习的路由选择和资源管理联合优化方案。在源节点和中继节点异质的场景中,针对网络中新生成数据源的情况,提出一种基于内存优化型学徒学习的联合路由设计与资源管理方案。首先引入强化型路径责任等级的概念,通过多级跃迁机制提高功率分配效率。随后提出基于专家演示数据的内存优化型深度Q学习(PM-DQf D)算法,周期性擦除经验库中低质量的自主生成数据和过时的专家演示数据,释放内存空间并优化数据结构。最后,构建了一种基于单智能体框架的跨层路由协议,将PM-DQf D算法应用到路由选择与资源管理联合优化中。仿真结果显示,该方法在学习速率、数据传输质量和网络可靠性等方面都优于传统强化学习方案。在网络中所有节点同构的场景下,针对新节点加入网络的情况,提出一种基于多专家演示型学徒学习算法的跨层路由协议。首先,通过引入强化型单跳责任等级提升功率自适应分配效率。随后提出半径自适应型Bregman球模型,保证地理位置偏远的认知用户能够找到合适的专家节点。最后,为避免单一专家经验缺陷造成的策略偏置,设计了一种基于多专家演示数据的深度Q学习算法。仿真结果表明,较传统多智能体强化学习策略,该方案的训练周期、路径延迟和系统能量消耗率都较小。(4)针对认知无线网络协议架构复杂、易受恶意用户攻击的问题,在网络中存在恶意干扰节点的场景下,从网络的整体性能出发提出一种基于端到端性能的多跳认知无线网络抗干扰决策算法。首先,抗干扰策略将路由选择考虑在内,充分发挥分布式网络鲁棒性的优势。随后,将双门限判决机制引入强化型路径责任等级,提升功率分配过程中的稳定性。最后,结合多跳网络中节点受干扰特点,将基于竞争架构的深度Q网络应用到抗干扰决策中。仿真结果表明,该方案无论在常规干扰模式还是智能干扰模式下的端到端性能均优于传统抗干扰算法,且带来网络鲁棒性与可靠性的大幅提升。