论文部分内容阅读
人们在5G移动通信技术的应用中,提出了万物互联的愿景,以应对未来爆炸性增长的无线数据流量、海量设备连接以及各类新兴业务和应用场景。然而随着前所未有的万物互联的出现,频谱资源稀缺问题日渐突出。为了应对当前的频谱资源稀缺的问题,同时为满足即将到来的6G移动通信时代的巨大频谱需求,提高频谱利用率是当前面临的严峻挑战。认知无线电(cognitive radio,CR)技术通过对授权频谱的重新开发,可以解决授权频谱未被充分利用的问题。因此,在万物互联的快速发展趋势下,将认知无线电技术引入到物联网(Internet of things,IoT)中的“认知物联网”具有重要的应用前景。除了提高频谱利用率,提高能量效率来解决海量物联设备的超高能耗问题以及扩大物联网的覆盖范围以实现全球随时随地的无缝服务也是值得关注的重要挑战。因此,如何构建高频谱效率、高能效以及高灵活性的认知物联网并建立有效的资源分配策略能成为了一个亟待研究的课题,其具有理论研究意义与实际应用价值。从绿色通信的理念出发,射频(radio frequency,RF)能量收集(energy harvesting,EH)技术可以将接收到的射频信号转换成电能,环境反向散射通信(ambient backscatter communication,ABC)技术可以利用周围无线电环境中的射频信号进行通信。这两种技术可以有效缓解超高能源消耗的问题。另一方面,为了实现物联网在全球范围内无处不在的服务,具有高灵活性和高机动性的无人机辅助通信技术可以提供一种可靠且低成本的解决方案。在本课题的研究过程中,主要面对的难点是如何在未知的动态复杂网络环境中实现有效的资源分配。在认知物联网中,物联网设备作为次用户可以依据环境的变化动态调整发射参数并以机会接入的方式使用授权频段。在避免对主用户的通信造成不良影响的前提下,对物联网中有限的资源进行合理分配是保证主次用户网络通信质量和提升资源利用率的至关重要的环节。目前,大多数关于认知物联网资源分配问题的研究都是在假设已知环境的先验统计知识前提下进行的。然而,认知物联网是一个高度复杂的动态系统,这些先验知识在实际环境中有时很难获得。在无法预先获得环境的统计特性的情况下的资源分配是极具挑战的工作。强化学习作为一种免模型方法,可以在预先不知道环境模型的情况下,通过不断地根据环境的反馈进行试错学习找到最优的资源分配策略。因此,可以预见深度强化学习算法是解决认知物联网中动态资源分配问题的有效手段。基于上述背景,本文针对认知物联网中绿色通信的需求和广覆盖的需求,围绕三种认知物联网应用场景,结合射频能量收集、环境反向散射以及无人机辅助通信等技术,构建了网络模型;以特定的服务需求为目标,建立优化问题,并基于深度强化学习提出了若干资源分配算法。本文的主要内容如下:(1)针对认知物联网中的绿色通信需求,为解决认知物联网中能耗过高和供电困难的问题,本文构建了具有射频能量收集的认知物联网系统。为提升该系统的吞吐量,本文提出了联合多用户接入调度、次用户工作模式选择(传输模式\能量收集)和功率分配的优化问题。考虑到无法提前获得能量到达模型、信道状态以及主用户的工作状态等先验统计知识,本文将原始优化问题转化成基于马尔可夫决策过程(Markov decision process,MDP)的优化问题。为求解该优化问题,本文提出了两种基于深度强化学习的算法:基于深度Q网络(deep Q network,DQN)的联合模式选择和离散功率分配(mode selection and discrete power allocation,MS-DPA)算法和基于深度确定性策略梯度(deep deterministic policy gradient,DDPG)的联合模式选择和连续功率分配(mode selection and continuous power allocation,MS-CPA)算法。最后,通过大量的计算机仿真实验验证了所提出的算法的可行性和有效性。仿真实验结果表明,本文提出的算法可以有效提高次用户网络的吞吐量,同时具有较快的收敛速度。(2)为了进一步提升面向绿色通信的认知物联网的频谱利用率和能量效率,本文将环境反向散射通信引入到射频供能的认知物联网中,并结合了非正交多址接入(non-orthogonal multiple access,NOMA)技术,构建了一种具有环境反向散射的射频供能认知物联网系统。为了增加研究的适应性,本文考虑了两种不同的频谱共享模式,即下垫-交织频谱共享模式和叠加-交织频谱共享模式,并建立了两个基于马尔可夫决策过程的优化问题。为了保证主用户的通信质量不受次用户影响,本文分别为这两个基于马尔可夫决策过程的优化问题设计了具有惩罚项的奖励函数。考虑实际情况下无法提前获得该动态系统的环境模型,本文提出了一种基于DDPG的联合反射系数调整和资源分配(joint reflection coefficient adjustment and resource allocation,JCARA)算法来求解两个优化问题。其中,在下垫-交织频谱共享模式中,通过JCARA算法联合优化次用户的反射系数和发射功率;在叠加-交织频谱共享模式中,除了优化反射系数和发射功率之外,还优化了时间资源。计算机仿真实验结果表明,与其它对比算法和不具备反向散射通信的传输方案相比,所提出的基于JCARA算法的传输方案可以实现更高的吞吐量,从而说明了所提出的基于JCARA算法的传输方案可以有效提升频谱利用率和能量效率。(3)针对认知物联网广覆盖的需求,考虑到无地面基础设施覆盖的场景,本文研究了面向物联网应用的认知卫星-无人机网络的资源分配问题。在这个网络中,多个无人机作为次用户,在控制其对卫星网络造成的总干扰低于干扰阈值的前提下,通过下垫式的频谱共享模式接入到卫星网络的频谱。为满足次用户网络延迟敏感的服务质量(quality of service,Qo S)需求,本文建立了一个联合无人机发射功率分配和轨迹控制的优化问题来最小化传输时延。为了求解这个在多重约束条件之下的复杂的非凸优化问题,同时降低计算复杂度以及减少执行阶段的信令交换,本文将原始的优化问题转换成基于部分可观测马尔可夫过程(partially observable Markov decision process,POMDP)的多智能体强化学习问题。为求解该优化问题,本文提出了基于多智能体深度确定性策略梯度(multi-agent deep deterministic policy gradient deep deterministic policy gradient,MADDPG)的联合轨迹控制和功率分配(joint trajectory control and power allocation,JTCPA)算法。通过计算机仿真实验结果可以看出,与其它的典型方法相比,该算法可以根据更少的环境信息做出更优的决策以有效减少传输时延。