基于深度强化学习的IoV谱效优化方法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:pengtao2222
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
车联网是第五代移动通信的一个重要应用。在该网络中,存在两种通信链路,一种是车到基础设施(Vehicle to Infrastructure,V2I)的通信链路,一种是车到车(Vehicle to Vehicle,V2V)的通信链路。为了提高频谱效率,很多研究都通过资源分配的方法去进行链路的干扰管理。但是这些方法建立在基站需要获得车辆准确的信道状态信息(Channel State Information,CSI)的基础上。而在实际情况中,由于车辆的高速移动,基站很难获得准确的CSI。为了解决这个问题,本文将深度强化学习算法应用到车联网的资源分配问题中。首先,本文研究了单条V2V链路为智能体的资源分配问题。将该条V2V链路可以获得的即时CSI和得到的来自其他车辆的干扰作为状态,将信道的选择和发射功率作为智能体的动作,将系统的谱效作为奖励,构建强化学习问题并且利用深度Q网络(Deep Q Network,DQN)进行了求解。然后针对系统中多条V2V链路为智能体的情况,构建多智能体强化学习模型,智能体为了使奖励最大而不断更新自己的策略。仿真证明,单智能体算法要好于随机分配算法,提升了系统的频谱效率。由于本文的多智能体算法是基于合作的模型,因此仿真结果好于单智能体算法,进一步提高了系统的频谱效率。其次,本文研究V2V链路和V2I链路均为智能体的资源分配问题。为了解决V2I链路和V2V链路动作选择的情况不一致的问题,本文先对V2V链路进行信道的分配,然后利用多智能体深度确定性策略梯度下降算法(Multi Agent Deep Deterministic Policy Gradient,MADDPG)对V2I链路和V2V链路的功率分配问题进行求解。从仿真结果可以看出,基于MADDPG的资源分配算法可以很好处理功率这种连续变量,提升了系统的频谱效率。最后,为了同时处理离散变量和连续变量,本文研究在基站端的资源分配算法。将系统整体优化问题分解成功率分配和信道分配两个子问题。针对功率分配问题,利用线性搜索算法去求解。针对信道分配问题,本文利用DQN去求解,通过和深度优先遍历算法进行对比,验证了DQN算法在保证资源分配性能的同时,降低了算法的复杂度。为了进一步解决提高算法的普适性,本文提出智能分支定界算法,利用DQN去指导分支定界算法的剪枝策略,在保证遍历效果的同时,大大减少了算法的复杂度并且算法具有很好的普适性。
其他文献
物联网(Internets of Things,IoT)在近几年的取得了高速地发展,作为其重要组成部分的车联网(Internet of Vehicles,Io V)领域也得到了人们足够的重视,并开始了逐步地进行研究
支持向量机(SVM)作为模式识别和数据挖掘领域非常流行的分类方法之一,其理论自上世纪60年代诞生,并在最近的数十年来得到了快速的发展和广泛的应用。基于SVM的改进方法广义特
天文学的进步与天文望远镜的发展息息相关。从可见光到红外、紫外乃至射电波段,从手持式望远镜到大型望远镜、太空望远镜,人类竭尽所能地通过各种可能的途径探寻宇宙的奥秘。
图是用于刻画自然界或社会中事物关系的一种复杂数据结构。随着信息技术的飞速发展,图已经逐步覆盖了我们日常生活的各个方面,特别是在交通、社交等领域中,图模型的应用更是
自工业革命之后,旋转机械设备的应用日益广泛,其能否安全运行对于企业的生产至关重要。滚动轴承作为旋转机械中最易损坏的部件之一,其运行状态监测成为了当前故障诊断领域广
雷达目标数据处理是建立在雷达信号处理后的再处理过程,其输入为信号检测器报出的点迹,输出为目标的航迹信息。点迹信息中包括目标和杂波的参数估计,利用这些信息找出目标、
随着无线通信技术的高速发展,电子对抗的程度也越来越激烈。一方面,雷达系统快速更新,新型雷达不断出现,研发有效的新型干扰方式显得尤为重要;另一方面,面对现有的干扰方式,
本文依托三跨波形钢腹板组合模型梁,对其弹性状态下及极限承载状态下的受力特点进行了测试分析。利用有限元方法,考虑混凝土强度、钢筋强度、普通钢筋配筋率、预应力筋配筋率
空间飞行器编队飞行时,需要搭载传输速率高,抗干扰能力强,功耗低的通信系统来进行内部通信和数据传输。传统通信系统难以满足通信性能要求,然而波分多址超宽带(Waveform Divi
飞机在航拍和航测的过程中,其上搭载的相机,要很好的完成航拍任务,需要保证相机视轴的稳定且在惯性空间内保持垂直。但是由于飞机会受到外界干扰或者自身飞行姿态的调整,导致