基于深度强化学习的蜂窝异构网络资源分配研究

来源 :内蒙古大学 | 被引量 : 0次 | 上传用户:li9599
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
未来第六代无线通信系统向万物互联方向发展。随着移动设备和物联网设备数量的快速增长,以及移动数据流量需求的激增,频谱资源消耗殆尽和系统容量不足等问题逐渐涌现出来。为满足无线通信需求,异构组网技术可以通过增加多类型小型基站数目,进而缩短终端设备与基站间距离,有效提高系统容量。同时,异构网络可以通过微基站与宏基站共享相同的信道的方式提高频谱效率来解决频谱短缺的问题。但是在异构网络中,大量微基站与海量终端设备共存,会出现的两者之间距离更近的情况,使干扰更加严重,这对用户服务质量(Quality of Service,QoS)造成了极大影响。因此,通过正确选择信道和基站的方式提高频谱和流量等资源的利用效率,可以极大地缓解干扰和系统容量不足的问题。因此,如何在保证终端用户服务质量的前提下,实现对用户关联基站和信道分配的联合优化,成为了亟待解决的问题。为解决上述优化问题,博弈论和凸优化等传统算法需要几乎完整的信道和基站信息,同时传统算法大都依据当前状态网络而不能根据网络过去的状态综合考虑系统未来收益。此外,在用户关联和信道分配的联合优化过程中,异构网络的用户和基站数量极大,导致资源分配的状态空间和动作空间激增,由此产生的巨大计算量使策略收敛十分困难。针对以上问题,本文提出了一种多智能体深度强化学习(Multi-Agent Deep Reinforcement Learning,MADRL)分布式优化方法——基于Multi-Agent Dueling架构的DQN(MADDQN)算法。多智能体DQN方法通过不断与环境交互的方式获取信息,解决了难以获取完整信道状态信息(Channel State Information,CSI)的问题。同时,为从长远角度考虑系统收益,算法采用强化学习网络通过不断折现奖励的方式实现系统收益最大化。此外,针对DQN收敛不够迅速的问题,算法提出采用Dueling DQN架构,通过将Q值等效为均值和优势值之和的方式,快速提取出系统信息完成策略的收敛。但是上述MADDQN算法还存在由于信息提取不到位而导致的策略收敛时系统和速率(系统容量)较低的问题。为解决这一问题,本文进而提出了一种基于Multi-Agent优先级经验回放技术(Prioritized Experience Replay,PER)和Dueling架构的Double DQN算法(MAPD3QN)。其中,PER技术通过对经验数据的重要性分级,使重要但稀少的经验数据得到高效地利用,Double DQN通过增加目标网络来监督Q值更新的方式,使深度神经网络提取的信息被正确的估计,进而找到更好的策略。仿真表明,本文提出的MADDQN和MAPD3QN算法可以在保证用户QoS的情况下完成用户关联基站和信道分配策略的快速收敛,并取得良好的和速率(系统容量)。
其他文献
青藏高原广泛发育、暴发频繁的雪崩对既有交通廊道造成严重威胁。采用高预测精度的机器学习算法对该类区域雪崩易发性进行评价,可快速、有效地对雪崩风险进行区域性评估。以青藏高原沙鲁里山系中段山区雪崩为研究对象,通过室内解译与现场验证相结合的方式识别并建立雪崩编目数据库,同时采用GIS、遥感等定量化提取技术,通过方差膨胀因子(VIF)筛选出14个评价因子,在此基础上利用支持向量机(SVM)、决策树(DT)、
期刊
化学链燃烧技术(CLC)是一项可以高效捕集二氧化碳技术,达到碳减排效果从而助力“双碳”目标的达成。在煤化学链燃烧中会产生积碳,阻碍载氧体传递氧和热的性能,降低整个系统燃烧效率和碳捕集效率。为了控制难以去除的芳香性积碳,本文采用Cu Fe Al O4载氧体进行煤直接化学链燃烧,研究了不同工况条件下Cu Fe Al O4载氧体的芳香性积碳生成量的影响,对载氧体性能进行表征,探究芳香性积碳的形成原因与燃
学位
呼包鄂城市群属我国布局的19个国家级城市群—呼包鄂榆城市群,位于内蒙古自治区中西部核心区,是内蒙古最具活力的城市经济圈。针对内蒙古自治区呼包鄂巴区域空气质量未能全面达标及重污染事件时有发生的现状,本文以该区域4个盟市的20个县区为研究对象,系统分析了2016-2020年研究区六种大气常规污染物(SO2、NO2、PM10、PM2.5、CO和O3)的浓度水平,揭示了研究区大气污染演化趋势及规律,辨析了
学位
物候是植物随着季节或环境变化,尤其是温度变化所形成的周期性的节律变化。植物的物候对于植物生长、繁殖以及物种共存具有重要意义,也是指示环境变化和人类活动干扰对物种共存、群落演替以及生态系统功能后果的重要特征。刈割是内蒙古草地重要的利用方式。养分供应不足是温带草地植物生长的重要限制因素,刈割通过移除植物而减少养分返还,并改变其它土壤微环境条件,但对植物物候的影响及其机制还不是很清楚。我们研究了刈割和养
学位
蒙古族文化遗产斑斓多彩,具有悠久的文明史。广泛流传于科尔沁草原的“安代舞”,就是这文化宝库中的一颗璀璨明珠。“安代舞”自1956年首次登上舞台以来,以其独特的魅力,一直吸引众多研究学者从各个方面对“安代舞”进行了深入研究,前人的潜心耕耘,为本次“安代舞”舞台表演实践研究提供了丰厚的资料。本文以舞台“安代舞”作为研究对象,在提取“安代舞”的优质基因基础上,深化“安代舞”的思想内涵,挖掘专业化身体语言
学位
多环芳烃(PAHs)是指含有两个以上苯环的,且在自然环境中广泛分布的一类有机化学污染物质。由于PAHs其具有的潜在毒性及“三致”作用,对人类乃至于整个生物圈的健康与安全都有着巨大的潜在危害。在之前的研究中,从山东农田土壤中筛选了4株多环芳烃降解菌株,分别命名为NJ-11、NJ-18、NM-2、LJ-10。本文对从山东农田土壤分离出来4个多环芳烃降解菌株进行了分类鉴定,并通过全基因组注释方法分析了菌
学位
季节的周期性变化与人体生命活动关系密切。《黄帝内经》不同篇章的季节论述次序不尽相同,存在始于春、始于夏、始于秋、始于冬等17种模式。春、夏(长夏)、秋、冬作为主体的序列应用最为广泛,同时基于五脏与季节的通应关系,季节的阴阳、五行属性,在经文中根据论述的内容,使用多种排序方式进行阐发。分类探讨《黄帝内经》中的季节次序,有助于充分挖掘其学术内涵。
期刊
典型草原是锡林郭勒地区的主要地带性植被类型,在草牧业生产与发展中有重要作用。草原管理与植被生产力提升是该地区亟待解决的关键问题。本研究采用拉丁方设计,分析了刈割、施肥和气候(降水量、温度和年限)对典型草原羊草群落地上生物量的影响,为割草场的可持续管理提供科学指导。研究结论如下:1.在短期内一年割一次的同时,连年施中水平有机肥能够提升草原生态系统植物群落生产力和多样性,是维持或提升草原生态系统植物群
学位
丁基羟基甲苯(butylated hydroxytoluene,BHT)是目前使用最广泛的合成酚类抗氧化剂,由于大量生产和使用,BHT及其代谢产物已在水环境和生物体中频繁检出。研究表明BHT具有潜在的内分泌干扰效应和发育毒性,然而关于BHTs对鱼类早期发育阶段的毒性效应仍缺乏系统性研究。本论文选取BHT及其4种代谢产物(BHT-Q,BHT-OH,BHT-CHO和BHT-COOH)在0.01、0.1
学位
许多的植物内生菌不仅可以促进宿主植物的生长,还能提高宿主的种子萌发率、根长及根的表面积。对其研究,可为利用植物内生促生菌提供重要理论支持。本研究采用多相分类方法对从采自内蒙古土默特右旗的细叶盐爪爪(Kalidium cuspidatum)的茎中分离的一株命名为HU2P27T菌株进行分类鉴定,得到以下结果:(1)菌株HU2P27T为革兰氏染色阳性、严格好氧、具有运动性、形成内芽孢、乳白色的中等嗜盐菌
学位