基于深度强化学习的IRS辅助通信系统性能优化研究

来源 :广东工业大学 | 被引量 : 0次 | 上传用户:yilong_hongru
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
智能反射面(Intelligent Reflecting Surface,IRS)是一种提高无线通信性能的革命性技术,它可以通过改变入射信号的幅度和相位来重构整个无线信道环境,从而能提升无线通信性能。在设计和优化IRS反射单元的反射相位时,大部分研究采用的是凸优化算法,然而由于IRS的反射单元数量众多,凸优化算法的设计难度往往较高且具有较高的复杂度。此外,面对不同的通信系统的性能优化问题,需要设计不同的优化算法,其中涉及各不相同的数学推导和算法设计过程。为了降低优化算法的设计难度和计算复杂度,本文提出新的算法设计思路,使用一种新型的人工智能算法——深度强化学习(Deep reinforcement learning,DRL)去解决IRS辅助通信系统的性能优化问题。本文对两种IRS辅助无线通信系统的性能优化进行研究,分别通过使用属于确定性策略(Deterministic Policy)的Deep Deterministic Policy Gradient(DDPG)算法以及属于随机性策略(Stochastic Policy)的Soft Actor-Critic(SAC)算法去优化两种不同IRS辅助无线通信系统中的IRS反射相位以及相应的通信资源分配,改善两种系统的通信性能。本文的主要内容如下。1)研究IRS辅助的认知无线电(Cognitive Radio,CR)通信系统,通过优化次要用户在发射端的发射功率以及IRS的反射相位,在保证主要用户的服务质量(Quality of Service,Qo S)前提下最大化次要用户在接收端的信号与干扰加噪声比(Signal to Interference plus Noise Ratio)。本文首先将优化问题转化为一个强化学习(Reinforcement Learning,RL)问题,然后分别使用DDPG算法以及SAC算法对问题进行求解。此外,本文还提出了一种能够有效改善DRL算法性能的方法,即通过对贝尔曼最优方程(Bellman Optimality Function)中的奖赏项乘上一个适当的系数,提升两种DRL算法的学习效率和算法稳定性,并且减小累计奖赏方差。仿真结果表明,本文提出的两种DRL算法能通过智能体自我学习,在不需要使用复杂的数学推导技巧和大量的计算量的条件下,能够得到与凸优化算法几乎一致的次要用户通信速率,并且随着IRS反射单元数量的增加,两种DRL算法的复杂度远远低于凸优化方法。同时,仿真结果表明SAC算法在学习效率,算法稳定性以及即时奖赏方差大小上比DDPG算法更具优势。2)为了探究DRL算法是否能够用于优化不同的无线通信系统,研究IRS辅助的安全通信系统。使用第一部分的DRL算法设计框架,分别提出基于DDPG和SAC的算法,在不需要改变DRL算法框架以及大面积调整算法超参数的情况下通过优化发射端的发射功率以及IRS的反射相位,最大化系统信息传输的安全速率。而在优化过程中本文仅仅需要根据系统模型调整智能体的状态、动作以及奖赏。仿真结果显示,DDPG和SAC算法在更低的运算复杂度情况下取得了比凸优化方法更优的安全通信速率。此外,仿真结果再一次验证了SAC算法在学习效率、算法稳定性以及累计奖赏方差的减小方面优于DDPG算法。因此,本文的研究表明DRL算法在优化不同的IRS辅助通信系统时具有较好的适应性。
其他文献
近年来,在改革红利不断释放的大环境与促进企业并购重组相关政策的刺激作用下,我国经济结构和产业转型升级的步伐逐步加快。与此同时,随着科学技术的飞速发展,互联网、新能源等一系列新兴产业逐渐活跃,不断对钢铁等传统行业进行冲击。在复杂的经济形势下,如何克服困难,实现进一步发展是许多企业必须面临的问题。近些年来,我国的资本市场发展迅速,许多上市公司进行了跨行业的并购重组,希望通过实现多元化战略来寻找新的利润
学位
人体动作识别检测一直是计算机视觉的重要课题之一,它在视频监控,行为记录,动作捕捉,虚拟现实,人机交互和多媒体搜索等诸多领域中有着许多潜在的应用价值。人体动作识别就是利用深度学习的神经网络通过对不同的动作视频进行学习,继而完成对不同动作视频分类的过程。人体动作识别同时也是具有较高挑战性的任务,不仅因为人体动作种类和动作背景具有较高的复杂性,而且视频片段所需要的庞大计算量也增加了动作识别的难度,以上问
学位
噪声发生器在通信、传感、军事等领域都有着重要的应用和广阔前景,因此对高频段的噪声发生器的研究有着重大的现实意义,这已经成为当前研究的一个热点。其中,提高其噪声功率谱的平坦度是研究工作中的一个重点。对于电学方法产生噪声主要受电子设备带宽的制约,高频段的噪声发生器研制难度大。而相比于电学,利用光学的方法产生宽带平坦的毫米波噪声有很大的潜力,基于光学的拍频技术可产生目标频率的毫米波单频信号,利用此方法可
学位
随着互联网应用技术与预付式消费市场的不断融合与发展,预付式消费第三方监管服务平台公司也逐渐融入人们的生活之中,对于公司而言,开拓市场固然重要,但稳定发展更是重中之重,而公司的稳定发展离不开内部控制,内部控制可以帮助公司预防风险、加快实现战略目标。日常经营活动中,预付式消费第三方监管服务平台公司的内部控制由于公司特殊的性质以及实践经验较少等客观因素呈现出诸多问题,如信息安全问题、员工贪腐问题等,不仅
学位
在物联网(Internet of Things,IoT)和5G通信技术急速发展的时代,单纯的实现通信或者获取定位信息已经无法满足人们的需求。联合通信与定位技术,即联合估计,能从接收信号中恢复符号的同时通过相关估计获取定位信息,成为定位领域的发展趋势之一。超宽带(Ultra Wideband,UWB)无线通信技术凭借其低功耗、低成本、高带宽的特性成为当今热门的无线通信技术之一。此外,UWB通信技术抗
学位
整体来看,我国化工行业发展迅速,总量巨大,但存在大而不强、重要材料过度依赖进口、产业链发展不均衡等问题。随着国际间竞争的加剧,化工行业企业间的竞争已演变为产业链竞争。虽然全产业链运营的优势较为显著,但它在资源整合等方面也给企业带来压力。化工企业进行全产业链运营能否提升绩效,该模式是以何种路径去影响绩效,以及如何加强对全产业链运营模式的合理运用,从而推动化工行业进一步高质量发展,是值得研究的问题。通
学位
2017年10月,十九大报告指出要实施“健康中国”战略,要求构筑并完善医疗产业架构与产业链。医疗器械产业得到了难得的发展机遇,产业并购交易数量攀升。来自后发市场的我国医疗器械企业,在并购中显现对先进生产制造技术、研发能力、品牌价值、市场份额等创造性资产的寻求倾向。通过梳理国内外相关文献发现,学界对创造性资产寻求型并购的价值创造效果未有定论,且研究多聚焦于动因、绩效与风险等静态分析,针对该类型并购价
学位
湿度测量在农业、仓储、医药、桥梁和环境监测等领域有着广泛需求。随着科学技术的发展,人们对湿度测量的精度、响应时间、测量范围等指标的要求越来越高。常规的基于电子技术的湿度传感器不耐腐蚀、易受电磁干扰、长期稳定性较差、难以实现长距离测量。而光纤湿度传感器以抗电磁干扰能力强、结构紧凑、重量轻、能够远距离测量等优点,近年来吸引了越来越多的研究兴趣。在众多光纤湿度传感器中,以光纤干涉仪所构成的光纤湿度传感器
学位
我国老年人的安全问题已然成为社会关注的焦点。跌倒行为是在生活中最易出现且对老人健康威胁最大的因素之一。为了减轻跌倒对老年人的伤害,越来越多的专家及机构关注和从事跌倒检测的研究。目前的研究方法以基于计算视觉的跌倒检测方法为主,因为该方法具有成本低、安装简单、非入侵等优点。但这种行为识别方法需要处理完整的视频,由于视频中存在很多冗余帧,不仅耗时较长、占据储存空间较大、计算复杂度较高,而且可能会干扰识别
学位
全面预算管理自上世纪80年代引入我国,已经有着广泛的应用。但企业所处的经济和技术环境瞬息万变,企业自身经营和管理快速发展,以及企业类型、规模和结构的千差万别,使得全面预算管理这一管理方法的应用水平参差不齐,其推广建设和作用的有效发挥受限。因此,有必要建立一个全面预算管理成熟度的评价体系,用于检视企业全面预算从基础工作,到预算编制、预算执行与控制以及绩效考评全过程的应用水平,以促进企业不断改进其预算
学位