论文部分内容阅读
车联网是第五代移动通信的一个重要应用。在该网络中,存在两种通信链路,一种是车到基础设施(Vehicle to Infrastructure,V2I)的通信链路,一种是车到车(Vehicle to Vehicle,V2V)的通信链路。为了提高频谱效率,很多研究都通过资源分配的方法去进行链路的干扰管理。但是这些方法建立在基站需要获得车辆准确的信道状态信息(Channel State Information,CSI)的基础上。而在实际情况中,由于车辆的高速移动,基站很难获得准确的CSI。为了解决这个问题,本文将深度强化学习算法应用到车联网的资源分配问题中。首先,本文研究了单条V2V链路为智能体的资源分配问题。将该条V2V链路可以获得的即时CSI和得到的来自其他车辆的干扰作为状态,将信道的选择和发射功率作为智能体的动作,将系统的谱效作为奖励,构建强化学习问题并且利用深度Q网络(Deep Q Network,DQN)进行了求解。然后针对系统中多条V2V链路为智能体的情况,构建多智能体强化学习模型,智能体为了使奖励最大而不断更新自己的策略。仿真证明,单智能体算法要好于随机分配算法,提升了系统的频谱效率。由于本文的多智能体算法是基于合作的模型,因此仿真结果好于单智能体算法,进一步提高了系统的频谱效率。其次,本文研究V2V链路和V2I链路均为智能体的资源分配问题。为了解决V2I链路和V2V链路动作选择的情况不一致的问题,本文先对V2V链路进行信道的分配,然后利用多智能体深度确定性策略梯度下降算法(Multi Agent Deep Deterministic Policy Gradient,MADDPG)对V2I链路和V2V链路的功率分配问题进行求解。从仿真结果可以看出,基于MADDPG的资源分配算法可以很好处理功率这种连续变量,提升了系统的频谱效率。最后,为了同时处理离散变量和连续变量,本文研究在基站端的资源分配算法。将系统整体优化问题分解成功率分配和信道分配两个子问题。针对功率分配问题,利用线性搜索算法去求解。针对信道分配问题,本文利用DQN去求解,通过和深度优先遍历算法进行对比,验证了DQN算法在保证资源分配性能的同时,降低了算法的复杂度。为了进一步解决提高算法的普适性,本文提出智能分支定界算法,利用DQN去指导分支定界算法的剪枝策略,在保证遍历效果的同时,大大减少了算法的复杂度并且算法具有很好的普适性。