论文部分内容阅读
随着无线通信网络的快速发展,数以亿计的无线通信设备接入网络,万物互联的时代已经到来。然而,随之而来的频谱资源、能量资源和计算资源等的大量消耗也给无线通信网络带来了巨大的供需压力和运营成本。本文通过引入认知无线电(Cognitive Radio,CR)、非正交多址(Non-orthogonal Multiple-Access,NOMA)、能量收集(Energy Harvesting,EH),以及移动边缘计算(Mobile Edge Computing,MEC)等多种通信技术缓解网络资源的快速消耗。另外,为进一步提高资源利用率,本文对引入以上通信技术的多种网络进行了资源管理研究。考虑到上述网络存在能量不稳定、信道质量随机、网络结构复杂,以及网络统计信息难以获知等特性,传统的资源管理优化算法难以适用。深度强化学习(Deep Reinforcement Learning,DRL)作为一种深度机器学习算法,擅长在动态未知的环境中,通过不断与环境交互学习获得最优决策策略。因此,本文以DRL为优化工具,针对多种无线通信网络设计了多种资源管理算法,实现了从单一频谱资源到多维网络资源的智能管理。仿真结果显示,较其他基准算法,所设计的基于DRL的资源管理算法,在多种无线网络中均能获得较好的系统性能。本文主要工作和创新包括以下四个方面内容:(1)考虑到CR和大规模多输入多输出(Multiple-Input Multiple-Output,MIMO)技术能够显著提高频谱资源利用率,本文将CR与大规模MIMO结合,并针对大规模MIMO-CR网络设计了3种次级用户(Secondary Users,SU)的动态频谱资源管理算法。这三种算法能在满足两类接入用户服务质量(Quality of Service,Qo S)的前提下,最大化成功接入的SU数目。首先针对次级基站(Secondary Base Station,SBS)能够获知主用户(Primary Users,PU)的信道状态信息(Channel State Information,CSI)的应用场景,本文提出了两种低复杂度的频谱资源管理方案,即最小功率用户递增算法(Increase-User-with-MinimumPower,IUMP)和最大功率用户递减算法(Decrease-User-with-Maximum-Power,DUMP),它们都能有效实现SU的动态频谱接入和功率分配。然而,在实际的通信系统中SBS很难获知PU的CSI,针对这种更为实际的应用场景,本文提出了一种基于深度Q学习网络(Deep Q learning Network,DQN)的频谱资源管理算法。仿真结果表明,与传统的动态频谱资源管理方法相比,IUMP和DUMP算法具有明显的性能优势。此外,仿真结果也验证了所提的DQN算法较其他基准算法的性能优势。(2)考虑到工业物联网(Industrial Internet of Things,IIo T)中不同类型的用户设备(User Equipment,UE)和数据流的爆炸性增长,本文针对IIo T网络提出一种基于改进的深度Q学习网络(Modified Deep Q learning Network,MDQN)的集中式频谱资源管理算法,以实现不同类型UE之间多个频谱资源的共享,从而提高频谱资源利用率。首先,本文设计了一种MAC帧结构,基于该结构,基站(Base Station,BS)即可获得系统状态信息,无需UE进行额外的信息交换和协作。其次,为驱动智能体更好地学习策略,本文设计了一种综合性的奖励函数,该函数考虑了不同类型UE的Qo S要求。此外,为提高学习效率,本文对算法的动作空间进行压缩,并提出了一个基于时间差分(Temporal Difference,TD)误差的优先经验重放策略。仿真结果表明,所提出的资源管理算法可以成功实现IIo T网络中的动态频谱资源管理,且与其他已有算法相比,它能以更快的收敛速度实现更好的网络性能。(3)将EH、CR和NOMA技术相结合是提高5G和超5G网络中能量效率和频谱效率的有效方案,然而,针对EH-CR-NOMA系统,如何进行频谱资源、时间资源和能量资源的合理分配以实现更好网络性能是一个需要解决的重要问题。本文针对EH-CR-NOMA系统进行多维资源的联合管理研究,在满足PU和次级传感用户(Secondary Sensor Users,SSU)的最大电池容量、最大传输功率限制、SSU最大存储器容量以及Qo S要求前提下,通过联合资源管理以最小化所有SSU的数据包丢失数量。首先,考虑到该优化问题的非凸性以及无线网络环境的随机性,本文提出了一种基于DRL的分布式多维资源联合管理算法。通过采用深度确定性策略梯度(Deep Deterministic Policy Gradient,DDPG)算法,每个SSU在无需协作的情况下就可以实现自身多维资源的联合管理。进一步,为提高DRL算法的训练效率,同时实现对电池性能的保护,本文还设计了一种简单而实用的动作调整器(Action Adjuster,AA),称引入该动作调整器后的算法为AADDPG算法。仿真结果表明,AADDPG算法的收敛速度比DDPG算法快4倍左右,平均丢包数(Average Number of Packet Losses,ANPL)比贪婪算法低8倍左右。(4)MEC可以让无线传感网(Wireless Sensor Networks,WSN)中能量受限的传感用户将计算密集型的任务卸载到MEC服务器处进行计算,从而有效地补充这些用户的计算能力。考虑到WSN网络的能量受限特性以及无线通信网络中频谱资源紧缺这一现实,本文同时引入无线信息能量同传(Simultaneous Wireless Information and Power Transfer,SWIPT)以及NOMA技术来实现WSN的任务卸载。在满足用户的Qo S要求以及各用户不同的计算延迟限制下,为最小化系统计算失败的任务数,本文提出了一种针对SWIPT-NOMA-MEC网络的时间资源、频谱资源、能量资源以及计算资源的联合管理算法。考虑到优化问题的复杂性和非凸性,本文将该问题分割为下行SWIPT中的时间资源分配问题,以及上行MEC中的用户动态接入(频谱资源)、卸载功率控制(能量资源)以及任务分割(计算资源)联合管理问题。为得到最优的SWIPT时间分割因子,本文采用Dinkelbach方法进行迭代求解。而针对上行MEC的联合资源管理,提出了一种基于多智能体的DDPG(Multiple Agent DDPG,MADDPG)资源管理算法,每个用户可以在没有任何协作的情况下基于本地观察到的环境状态进行自身的多维资源管理。仿真结果表明,相对于其他基准算法,所提算法可以有效降低SWIPTNOMA-MEC系统中计算失败的任务数。