基于深度强化学习的无线网络资源管理算法研究

来源 :重庆邮电大学 | 被引量 : 0次 | 上传用户:dreamyear
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着无线通信网络的快速发展,数以亿计的无线通信设备接入网络,万物互联的时代已经到来。然而,随之而来的频谱资源、能量资源和计算资源等的大量消耗也给无线通信网络带来了巨大的供需压力和运营成本。本文通过引入认知无线电(Cognitive Radio,CR)、非正交多址(Non-orthogonal Multiple-Access,NOMA)、能量收集(Energy Harvesting,EH),以及移动边缘计算(Mobile Edge Computing,MEC)等多种通信技术缓解网络资源的快速消耗。另外,为进一步提高资源利用率,本文对引入以上通信技术的多种网络进行了资源管理研究。考虑到上述网络存在能量不稳定、信道质量随机、网络结构复杂,以及网络统计信息难以获知等特性,传统的资源管理优化算法难以适用。深度强化学习(Deep Reinforcement Learning,DRL)作为一种深度机器学习算法,擅长在动态未知的环境中,通过不断与环境交互学习获得最优决策策略。因此,本文以DRL为优化工具,针对多种无线通信网络设计了多种资源管理算法,实现了从单一频谱资源到多维网络资源的智能管理。仿真结果显示,较其他基准算法,所设计的基于DRL的资源管理算法,在多种无线网络中均能获得较好的系统性能。本文主要工作和创新包括以下四个方面内容:(1)考虑到CR和大规模多输入多输出(Multiple-Input Multiple-Output,MIMO)技术能够显著提高频谱资源利用率,本文将CR与大规模MIMO结合,并针对大规模MIMO-CR网络设计了3种次级用户(Secondary Users,SU)的动态频谱资源管理算法。这三种算法能在满足两类接入用户服务质量(Quality of Service,Qo S)的前提下,最大化成功接入的SU数目。首先针对次级基站(Secondary Base Station,SBS)能够获知主用户(Primary Users,PU)的信道状态信息(Channel State Information,CSI)的应用场景,本文提出了两种低复杂度的频谱资源管理方案,即最小功率用户递增算法(Increase-User-with-MinimumPower,IUMP)和最大功率用户递减算法(Decrease-User-with-Maximum-Power,DUMP),它们都能有效实现SU的动态频谱接入和功率分配。然而,在实际的通信系统中SBS很难获知PU的CSI,针对这种更为实际的应用场景,本文提出了一种基于深度Q学习网络(Deep Q learning Network,DQN)的频谱资源管理算法。仿真结果表明,与传统的动态频谱资源管理方法相比,IUMP和DUMP算法具有明显的性能优势。此外,仿真结果也验证了所提的DQN算法较其他基准算法的性能优势。(2)考虑到工业物联网(Industrial Internet of Things,IIo T)中不同类型的用户设备(User Equipment,UE)和数据流的爆炸性增长,本文针对IIo T网络提出一种基于改进的深度Q学习网络(Modified Deep Q learning Network,MDQN)的集中式频谱资源管理算法,以实现不同类型UE之间多个频谱资源的共享,从而提高频谱资源利用率。首先,本文设计了一种MAC帧结构,基于该结构,基站(Base Station,BS)即可获得系统状态信息,无需UE进行额外的信息交换和协作。其次,为驱动智能体更好地学习策略,本文设计了一种综合性的奖励函数,该函数考虑了不同类型UE的Qo S要求。此外,为提高学习效率,本文对算法的动作空间进行压缩,并提出了一个基于时间差分(Temporal Difference,TD)误差的优先经验重放策略。仿真结果表明,所提出的资源管理算法可以成功实现IIo T网络中的动态频谱资源管理,且与其他已有算法相比,它能以更快的收敛速度实现更好的网络性能。(3)将EH、CR和NOMA技术相结合是提高5G和超5G网络中能量效率和频谱效率的有效方案,然而,针对EH-CR-NOMA系统,如何进行频谱资源、时间资源和能量资源的合理分配以实现更好网络性能是一个需要解决的重要问题。本文针对EH-CR-NOMA系统进行多维资源的联合管理研究,在满足PU和次级传感用户(Secondary Sensor Users,SSU)的最大电池容量、最大传输功率限制、SSU最大存储器容量以及Qo S要求前提下,通过联合资源管理以最小化所有SSU的数据包丢失数量。首先,考虑到该优化问题的非凸性以及无线网络环境的随机性,本文提出了一种基于DRL的分布式多维资源联合管理算法。通过采用深度确定性策略梯度(Deep Deterministic Policy Gradient,DDPG)算法,每个SSU在无需协作的情况下就可以实现自身多维资源的联合管理。进一步,为提高DRL算法的训练效率,同时实现对电池性能的保护,本文还设计了一种简单而实用的动作调整器(Action Adjuster,AA),称引入该动作调整器后的算法为AADDPG算法。仿真结果表明,AADDPG算法的收敛速度比DDPG算法快4倍左右,平均丢包数(Average Number of Packet Losses,ANPL)比贪婪算法低8倍左右。(4)MEC可以让无线传感网(Wireless Sensor Networks,WSN)中能量受限的传感用户将计算密集型的任务卸载到MEC服务器处进行计算,从而有效地补充这些用户的计算能力。考虑到WSN网络的能量受限特性以及无线通信网络中频谱资源紧缺这一现实,本文同时引入无线信息能量同传(Simultaneous Wireless Information and Power Transfer,SWIPT)以及NOMA技术来实现WSN的任务卸载。在满足用户的Qo S要求以及各用户不同的计算延迟限制下,为最小化系统计算失败的任务数,本文提出了一种针对SWIPT-NOMA-MEC网络的时间资源、频谱资源、能量资源以及计算资源的联合管理算法。考虑到优化问题的复杂性和非凸性,本文将该问题分割为下行SWIPT中的时间资源分配问题,以及上行MEC中的用户动态接入(频谱资源)、卸载功率控制(能量资源)以及任务分割(计算资源)联合管理问题。为得到最优的SWIPT时间分割因子,本文采用Dinkelbach方法进行迭代求解。而针对上行MEC的联合资源管理,提出了一种基于多智能体的DDPG(Multiple Agent DDPG,MADDPG)资源管理算法,每个用户可以在没有任何协作的情况下基于本地观察到的环境状态进行自身的多维资源管理。仿真结果表明,相对于其他基准算法,所提算法可以有效降低SWIPTNOMA-MEC系统中计算失败的任务数。
其他文献
由手术、外伤或代谢性疾病等因素引起的皮肤损伤已成为常见的疾病类型。皮肤创面的修复涉及多种细胞和因子的相互作用,是一个连续、重叠的多阶段过程,如何实现高效高质的创面愈合成为近年来的研究挑战之一。基因治疗通过基因输送体系将外源功能性基因导入靶细胞,调控目的基因的表达,能够实现生长因子在创面原位的连续输送,是皮肤创面治疗中重要的手段之一。安全、高效的基因输送体系是基因治疗成功的关键。与病毒载体相比,聚合
学位
生物燃料(Biofuel)是可再生能源开发利用的重要方向之一,主要包括以氢气(H2)为代表的气体生物燃料和以生物醇为代表的液体生物燃料。然而,由于现有的产物分离技术处理效率低,生物燃料在其实际工业化生产过程中面临着过程能耗高的关键问题。膜分离技术因其选择性高、能耗低等优势,被认为是解决上述问题的分离技术之一。其中,聚合物分离膜因为其原材料价格低、可塑性强成为了目前应用最广的分离膜;并且为进一步提升
学位
随着传感技术的发展,卫星遥感系统具有更加强大的图像采集能力,获取的遥感影像类型多样且空间和光谱分辨率都得到显著提升。如何综合不同来源不同类型的遥感图像的互补优势,增强多源图像协同解译能力,是遥感技术应用中的一个关键问题。本文重点针对全色图像和多光谱图像融合(空谱融合)方法展开研究。考虑实际应用场景中图像的光谱和空间结构的重要性,以遥感图像的成像机理为指导,针对现有方法的不足,利用光谱补偿机制、空间
学位
多肽是一种占据着小分子与大分子之间化学空间的分子,可以靶向一些小分子无药可及的靶点,同大分子相比则具有更好的透膜能力、制备运输便捷、易于精确修饰等特点。通过合理的设计,多肽可以调节蛋白-蛋白相互作用(PPIs),可以获得对病理环境(如肿瘤微环境等)的响应性、选择性等。多肽往往还具有自组装的能力,通过合理设计可以控制其形成特定的纳米结构,因此在生物医学领域有巨大的应用潜力。但是目前针对某些病理问题的
学位
随着大众生活和数字经济对网络通信的要求日益增强,无线通信技术也在不断更新发展,自动驾驶、工业自动化、远程协同医疗、智能电网、元宇宙等新兴应用和服务也在寻求新一代移动蜂窝网络的加持。在5G-advanced和6G系统中,超可靠低时延通信(Ultra-reliable Low-latency Communication,URLLC)对于许多可靠性和时延约束严格的应用是必不可少的,也是无线通信最具挑战性
学位
在当前教学改革过程中,各学科教师在开展教学活动时应遵循双减的核心政策,其主要目的是为了构建轻松课堂,从而合理规划课堂教学活动,解放学生思想,实现综合素质的提升。尤其是对于初中数学学科来说,教师更应该注重采用多元化的教学手段提高教学效率和质量,真正实现减负增效的教学目标。基于此,本文主要分析了双减政策对初中数学教学提出的新要求,并结合当前初中数学教学存在的问题,提出了几点有效的教学策略,以供参考。
期刊
电磁波轨道角动量(Orbital Angular Momentum,OAM)具有多模式正交传输特性,为无线通信提供了一种新的模分复用(Mode Division Multiplexing,MDM)方式,是近距离视距(Line-of-Sight,LOS)通信场景的一种全新解决方案。目前,国内外学者已经在OAM信道建模、OAM产生与接收及OAM复用等方面取得了大量的研究成果;本文聚焦OAM复用通信,针
学位
随着移动通信网络的快速发展以及各种新型应用场景的不断出现,促使物联网设备和移动智能终端的数量快速增长,现有的无线通信网络面临前所未有的巨大挑战。下一代无线通信网络不仅要满足设备的超高速率传输需求,也需要解决超大规模的设备连接问题。因此,能有效提高频谱效率并显著增强用户连接能力的非正交多址(Non-Orthogonal Multiple Access,NOMA)技术受到研究人员的广泛关注,是下一代无
学位
遥感数据作为地表信息的重要载体,在现代农业、资源勘查和环境保护等领域发挥着重要的作用。然而,受卫星传感器的硬件设计和发射成本的限制,单一卫星传感器在空间分辨率、光谱分辨率和时间分辨率等方面存在相互制约的矛盾,使其无法提供同时具有高空间分辨率、高时间分辨率和高光谱分辨率的遥感数据。遥感数据融合技术可以整合多源遥感数据在空间分辨率、光谱分辨率和时间分辨率方面的互补优势,为相关遥感应用提供更优质的数据资
学位
随着汽车产业智能化、网络化技术的发展,自动驾驶的研究及产业化应用,已成为政府部门、学术界和产业界共同关注的重点和热点,是汽车、计算机、自动化、通信与人工智能等多学科相融合的高新技术发展的重要方向。在自动驾驶技术体系中,基于视觉信息的环境感知技术是智能车路径规划、决策控制等智能行为的基础。复杂环境下的多模态、异构化的信息要素重构和空间描述更是目前智能车环境感知技术领域研究的重点课题。本论文以基于视觉
学位