基于深度强化学习的认知物联网资源分配研究

被引量 : 0次 | 上传用户：peace_2009

【摘要】

：

【作者】

：

郭少艾

【机构】

：

吉林大学

【发表日期】

：

2023年01期

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

人们在5G移动通信技术的应用中,提出了万物互联的愿景,以应对未来爆炸性增长的无线数据流量、海量设备连接以及各类新兴业务和应用场景。然而随着前所未有的万物互联的出现,频谱资源稀缺问题日渐突出。为了应对当前的频谱资源稀缺的问题,同时为满足即将到来的6G移动通信时代的巨大频谱需求,提高频谱利用率是当前面临的严峻挑战。认知无线电（cognitive radio,CR）技术通过对授权频谱的重新开发,可以解决授权频谱未被充分利用的问题。因此,在万物互联的快速发展趋势下,将认知无线电技术引入到物联网（Internet of things,IoT）中的“认知物联网”具有重要的应用前景。除了提高频谱利用率,提高能量效率来解决海量物联设备的超高能耗问题以及扩大物联网的覆盖范围以实现全球随时随地的无缝服务也是值得关注的重要挑战。因此,如何构建高频谱效率、高能效以及高灵活性的认知物联网并建立有效的资源分配策略能成为了一个亟待研究的课题,其具有理论研究意义与实际应用价值。从绿色通信的理念出发,射频（radio frequency,RF）能量收集（energy harvesting,EH）技术可以将接收到的射频信号转换成电能,环境反向散射通信（ambient backscatter communication,ABC）技术可以利用周围无线电环境中的射频信号进行通信。这两种技术可以有效缓解超高能源消耗的问题。另一方面,为了实现物联网在全球范围内无处不在的服务,具有高灵活性和高机动性的无人机辅助通信技术可以提供一种可靠且低成本的解决方案。在本课题的研究过程中,主要面对的难点是如何在未知的动态复杂网络环境中实现有效的资源分配。在认知物联网中,物联网设备作为次用户可以依据环境的变化动态调整发射参数并以机会接入的方式使用授权频段。在避免对主用户的通信造成不良影响的前提下,对物联网中有限的资源进行合理分配是保证主次用户网络通信质量和提升资源利用率的至关重要的环节。目前,大多数关于认知物联网资源分配问题的研究都是在假设已知环境的先验统计知识前提下进行的。然而,认知物联网是一个高度复杂的动态系统,这些先验知识在实际环境中有时很难获得。在无法预先获得环境的统计特性的情况下的资源分配是极具挑战的工作。强化学习作为一种免模型方法,可以在预先不知道环境模型的情况下,通过不断地根据环境的反馈进行试错学习找到最优的资源分配策略。因此,可以预见深度强化学习算法是解决认知物联网中动态资源分配问题的有效手段。基于上述背景,本文针对认知物联网中绿色通信的需求和广覆盖的需求,围绕三种认知物联网应用场景,结合射频能量收集、环境反向散射以及无人机辅助通信等技术,构建了网络模型;以特定的服务需求为目标,建立优化问题,并基于深度强化学习提出了若干资源分配算法。本文的主要内容如下:（1）针对认知物联网中的绿色通信需求,为解决认知物联网中能耗过高和供电困难的问题,本文构建了具有射频能量收集的认知物联网系统。为提升该系统的吞吐量,本文提出了联合多用户接入调度、次用户工作模式选择（传输模式\能量收集）和功率分配的优化问题。考虑到无法提前获得能量到达模型、信道状态以及主用户的工作状态等先验统计知识,本文将原始优化问题转化成基于马尔可夫决策过程（Markov decision process,MDP）的优化问题。为求解该优化问题,本文提出了两种基于深度强化学习的算法:基于深度Q网络（deep Q network,DQN）的联合模式选择和离散功率分配（mode selection and discrete power allocation,MS-DPA）算法和基于深度确定性策略梯度（deep deterministic policy gradient,DDPG）的联合模式选择和连续功率分配（mode selection and continuous power allocation,MS-CPA）算法。最后,通过大量的计算机仿真实验验证了所提出的算法的可行性和有效性。仿真实验结果表明,本文提出的算法可以有效提高次用户网络的吞吐量,同时具有较快的收敛速度。（2）为了进一步提升面向绿色通信的认知物联网的频谱利用率和能量效率,本文将环境反向散射通信引入到射频供能的认知物联网中,并结合了非正交多址接入（non-orthogonal multiple access,NOMA）技术,构建了一种具有环境反向散射的射频供能认知物联网系统。为了增加研究的适应性,本文考虑了两种不同的频谱共享模式,即下垫-交织频谱共享模式和叠加-交织频谱共享模式,并建立了两个基于马尔可夫决策过程的优化问题。为了保证主用户的通信质量不受次用户影响,本文分别为这两个基于马尔可夫决策过程的优化问题设计了具有惩罚项的奖励函数。考虑实际情况下无法提前获得该动态系统的环境模型,本文提出了一种基于DDPG的联合反射系数调整和资源分配（joint reflection coefficient adjustment and resource allocation,JCARA）算法来求解两个优化问题。其中,在下垫-交织频谱共享模式中,通过JCARA算法联合优化次用户的反射系数和发射功率;在叠加-交织频谱共享模式中,除了优化反射系数和发射功率之外,还优化了时间资源。计算机仿真实验结果表明,与其它对比算法和不具备反向散射通信的传输方案相比,所提出的基于JCARA算法的传输方案可以实现更高的吞吐量,从而说明了所提出的基于JCARA算法的传输方案可以有效提升频谱利用率和能量效率。（3）针对认知物联网广覆盖的需求,考虑到无地面基础设施覆盖的场景,本文研究了面向物联网应用的认知卫星-无人机网络的资源分配问题。在这个网络中,多个无人机作为次用户,在控制其对卫星网络造成的总干扰低于干扰阈值的前提下,通过下垫式的频谱共享模式接入到卫星网络的频谱。为满足次用户网络延迟敏感的服务质量（quality of service,Qo S）需求,本文建立了一个联合无人机发射功率分配和轨迹控制的优化问题来最小化传输时延。为了求解这个在多重约束条件之下的复杂的非凸优化问题,同时降低计算复杂度以及减少执行阶段的信令交换,本文将原始的优化问题转换成基于部分可观测马尔可夫过程（partially observable Markov decision process,POMDP）的多智能体强化学习问题。为求解该优化问题,本文提出了基于多智能体深度确定性策略梯度（multi-agent deep deterministic policy gradient deep deterministic policy gradient,MADDPG）的联合轨迹控制和功率分配（joint trajectory control and power allocation,JTCPA）算法。通过计算机仿真实验结果可以看出,与其它的典型方法相比,该算法可以根据更少的环境信息做出更优的决策以有效减少传输时延。

其他文献

《中国药典》2020年版（一部）中收载含罂粟壳成方制剂的汇总与分析

目的拓展含罂粟壳成方制剂的中医临床用药范围，规范含罂粟壳成方制剂使用说明与质量标准。方法汇总《中国药典》2020年版（一部）中收载的含罂粟壳成方制剂，重点对含罂粟壳成方制剂的剂型、用法用量、使用禁忌、检验方法、处方中罂粟壳使用量、处方中罂粟壳的炮制方法等进行分析，提出了提高其临床安全用药水平的建议。结果经对《中国药典》2020年版（一部）中收载的1 607个中药成方制剂处方项下的处方药味全部

期刊

空压机余热回收利用的原理及效益分析

文章中对空压机的余热回收工作原理进行了分析介绍，空压机运行产生大量的热量，会用到风冷机组。风冷机组要把热量排放到大气中。根据相关数据统计：空压机运行时，真正用于增加空气势能所消耗的电能，在总耗电量中只占约15%，约85%的电能转化为热量，通过风冷排放到空气中。如果把这些热量回收利用的话，不但降低企业的能源费用，还减少了对环境的热污染，达到节能环保的目的。

期刊

地质找矿勘查技术原则与方法创新

目前，随着我国社会经济建设速度不断加快，我国各行各业以及人民生产生活对于资源的利用效率也不断提升，同时，对于各种社会资源和自然资源的需求量也与日俱增，为了推动我国社会经济建设速度的稳定发展，相关地质单位和地质企业就应该在地质资源勘查工作中提供准确的自然资源数据支持。在我国广袤的国土中，南北方地区的地质环境复杂多变，同时也蕴含着较多的地下矿产资源。而随着我国矿产企业发展规模不断扩大，地质找矿勘查技术

期刊

《中国药典》鹿衔草质量标准修订的研究

目的：针对《中华人民共和国药典》（以下简称《中国药典》）2020年版中鹿衔草药材标准存在的问题和局限性，对其质量标准进行改进和完善，为《中国药典》 2020年版鹿衔草药材质量标准的修订提供参考。方法：采用显微鉴别法与薄层色谱法对鹿衔草的鉴别项进行研究，增加了粉末显微鉴别，修订了薄层鉴别中的薄层板和展开剂；增加了鹿衔草质量标准中有关杂质的检查项；采用高效液相色谱法对鹿衔草中的水晶兰苷含量测定方法进行

期刊

《中国药典》中四个品种来源的陈皮挥发油对兔离体肠肌运动影响的比较

目的研究比较《中国药典》中四个品种来源（江西南昌、江西新干、广东新会和福建福州）的陈皮挥发油对兔离体肠肌运动的影响,初步探讨挥发油的作用机制。方法采用离体肠肌实验,用BL-420S生物机能分析系统记录陈皮挥发油部位对正常肠肌及加入工具药后肠肌的影响,采集肠肌的振幅与频率,计算出各抑制率。结果陈皮挥发油高、中、低剂量组对兔离体肠肌自发活动有不同程度的抑制作用,其中温州蜜柑和福橘挥发油对十二指肠部位的

会议

蛋黄卵磷脂在中国药典标准中残留溶剂测定方法的优化

目的建立顶空气相色谱法测定蛋黄卵磷脂中的石油醚、乙醇、乙醚、丙酮、正己烷共5种残留溶剂的含量，并采用气相色谱-质谱联用技术，结合质谱数据检索对样品中的其他挥发性杂质进行结构鉴定。方法 GC条件为色谱柱：DB-624UI毛细管柱（60 m×0.25 mm,1.4μm），采用程序升温；检测器：氢火焰离子化检测器；检测器温度：250℃；分流比：20∶1。GC-MS条件为GC条件的载气：氦气、不分流模式

期刊

基于2020版《中国药典》含乳香制剂的分析

目的：乳香是舶来中药品种之一，在我国用药历史悠久。梁代陶弘景所著《名医别录》即有记载，乳香是以“熏陆香”进行记载的。方法：本研究对2020版《中国药典》（一部）含有乳香的所有制剂进行搜索，将制剂的剂型、中药数量、功效主治、注意事项、用法用量录入Execl，建立数据库，应用Execl软件进行数据分析。结果及结论：中国药典共记载乳香制剂为91种，剂型主要有丸剂、胶囊剂和片剂等；药典中记载的乳香成方制剂

期刊

僵蚕药材质量现状及对2025年版《中国药典》的建议

为了解目前僵蚕药材的质量现状和养殖情况，笔者于2016—2018年分别收集不同主产地及五大中药材市场共102批僵蚕药材，测定断面丝腺环性状和质量，以明确不同产地与市场僵蚕药材的质量现状，另以2019—2022年的35批僵蚕药材验证修订后的断面丝腺环情况；同时于家蚕4～5龄不同龄期分别接种白僵菌，规范化养殖至僵死，测定其僵死率和质量，明确不同龄期僵蚕药材的差异，探讨2020年版《中国药典》僵蚕感染龄

期刊

践行新时代“枫桥经验” 助力乡村振兴

报纸

中国药典2020年版药用辅料二丁基羟基甲苯质量标准有关物质检查修订建议

目的:针对《中国药典》2020年版四部二丁基羟基甲苯质量标准中有关物质检查项方法专属性差、重复性不强、耗时较长等问题，建立其有关物质测定的高效液相色谱法，对该辅料质量标准进行修订。方法:对USP43方法进行了优化，将薄层色谱法检查有关物质修订为高效液相色谱法，并进行方法学验证。结果:按修订后方法进行有关物质检查，9种指定杂质具有良好分离度，4批样品均符合规定。结论:修订后有关物质检查方法操作简单，

期刊

基于深度强化学习的认知物联网资源分配研究

与本文相关的学术论文