基于强化学习的无线能量收集网络中无人机轨迹优化

来源 :北京交通大学 | 被引量 : 0次 | 上传用户:natelie_hu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,无人机因为其高性价比,机动性强,灵活操作等优点,在各个领域得到了应用。特别是通信领域中,由于无人机可以与地面用户建立良好的视距链路(Line of Sight,Lo S),从而提升数据传输效率,同时无人机可以搭载雾服务器完成计算任务,还可以安装射频信号发射器为设备充电。但是,在用户相关信息(如用户位置、发射功率)动态变化的情况下,对能量有限的无人机的飞行轨迹进行设计以最大化系统网络容量,存在一定的挑战。在现有的研究中,对于无人机轨迹的优化,主要有凸优化方法和强化学习方法两种方法。由于针对无人机轨迹优化所建模的优化问题形式非常复杂,使用凸优化方法需要用到大量的一阶近似和变量替换,所获得的结果通常脱离实际情况。另一方面,该数学方法难以应对动态变化的环境。相比之下与传统的优化方法不同的是,采用强化学习方法优化无人机轨迹,具有对环境依赖度低、可与环境实时交互、探索未知能力强、模型复用率高等特点。强化学习通过智能体与环境的交互根据环境返回奖励为动作的选取做出决策,十分适合高度动态的无人机辅助通信场景。本文研究了在无人机辅助网络中,地面移动用户在自身固定能耗下和无人机提供充电两种情况下无人机的轨迹优化设计,具体创新工作内容如下:(1)针对地面用户有充足自身供电的情况下的无人机辅助网络,其中地面用户随机移动,并向无人机卸载数据,无人机根据用户的卸载需求来选择所需服务的用户。根据无人机的能量约束和每个用户设备的服务质量约束,共同优化用户关联、无人机轨迹以及每个用户设备的数据上传功率,以最大化从所有用户设备卸载到无人机的总数据量。之后对于描述的场景建模了一个优化问题,并用马尔科夫的思想来解决该问题。设计了基于用户卸载量增益和能耗惩罚的奖励函数。通过设计了基于DQN的无人机轨迹优化算法框架,提高地面用户的网络容量。通过对不同超参数取值下平均回报的对比,验证了所提算法在收敛性和吞吐量上优于传统QLearning方法,可以保证用户服务质量。(2)针对地面随机移动的用户设备能量有限的情况,进一步研究无人机作为雾服务器的同时还将充当无线射频能量源,其中无人机通过射频信号在为传感器节点充电的同时接收并计算来自用户的卸载任务。为使问题更接近实际,考虑非线性能量模型的约束。在求解该问题上,设计了基于DDQN的自适应ε-greedy策略算法。仿真结果表明算法在有效性和收敛性上优于常规算法,所提自适应ε-greedy策略在性能上优于常规ε-greedy策略。
其他文献
本文聚焦居民日用消费品城市配送物流的长期预测,从城市发展的宏观经济环境出发,提出了能够与不同发展进程的城市相契合的居民日用消费品物流需求预测方法,可充分顺应我国地区经济发展不平衡的国情,因地制宜地为我国各城市商贸服务业物流规划提供科学可靠的思路方法和理论支撑。首先,结合物流学科理论和相关标准,严格规范地界定了“居民日用消费品物流需求”的概念,并从多方面分析相关影响因素,构建居民日用消费品物流需求预
迁移学习是指根据已有知识和新知识之间的相关性,运用已有的知识来学习新的知识。按照是否使用深度学习方法,迁移学习可以分为传统迁移学习和深度迁移学习。当迁移源域和目标域的特征空间相同且类别空间相同,但边缘分布和条件分布不同时,该问题称为域适配问题。迁移学习的目的是为了解决在样本不足、标签不全等情况下,机器学习任务如何借助外部数据进行有效学习的问题。因此,迁移学习具有重要的实际应用价值。本人独立完成了如
对遥感图像中的道路进行自动识别与分割在地理信息系统数据的更新、土地管理、城市规划、军事打击等不同应用领域都有着十分重要的应用价值。随着科学技术手段日新月异的发展,机器学习和人工智能技术在人们日常生活中的应用更加广泛,如何利用深度学习算法更加高效地解决遥感图像道路分割的难点,提高遥感图像道路分割的精度,简化神经网络训练过程中的难度已经成为各国学者们的重点研究方向。本课题基于深度学习理论并结合可见光遥
随着我国经济快速发展,人们的生活水平逐步提高,生活节奏逐渐加快,消费观念开始转变,越来越多的人选择搭乘出租车出行,出租车行业规模日渐庞大,车载GPS系统等采集设备也积累了海量的出租车行驶数据。与此同时,出现了出租车定价体系不够合理、评价与监管体系不够完善、出租车资源浪费等问题。目前行业内对出租车的经营状况的画像研究还远远不够,无法做到针对出租车的个性化分析从而采取更有效的管理措施。因此,本文尝试基
在信息爆炸的时代背景下,大量重复冗余的信息充斥人们的生活,如何从众多无结构或半结构的信息里提取出高质量且精准的信息是信息抽取任务快速发展的原因之一。信息抽取在问答系统、数字图书馆等任务中都有广泛应用,实体关系抽取是其重要的子任务之一。传统和基于深度学习的实体关系抽取方法已经在实际应用中取得了较高的准确率,但其主要集中在特定领域,在面对不容易获得大规模监督训练数据集的实体关系抽取任务时,传统方法逐渐
软件缺陷预测是一种以提高软件质量为目的通过预先识别可疑缺陷模块为软件测试资源分配提供决策支持的技术。但是软件缺陷预测模型的性能取决于所考虑的软件特征的质量。冗余和不相关特征可能会降低模型的性能,这就需要特征选择方法来识别和移除这类特征。本文针对软件缺陷预测中的特征选择进行深入研究,主要研究工作如下:(1)本文将软件缺陷预测特征选择问题转化为多目标优化问题。结合特征工程的实际意义,在综合分析模型运行
临床病历文本中所包含的信息资源极其丰富,却因其规范化程度有限而导致信息无法被有效地提取和利用。病人以往的病情、诊断和治疗记录,对辅助医生做出更好的医学决策具有重要意义。本文的研究任务是对中医临床病历文本进行事件抽取,以事件为单元对病人的病情发展进行呈现,同时抽取出每个事件的发生时间。事件抽取技术是从非结构化信息中抽取出用户感兴趣的事件,并以结构化表达方式呈现给用户。经过研究发现,不管是在研究任务上
由于各种不确定性和不可抗力的存在,导致众多产品的制造生产过程存在着很多风险源,这些风险源的存在会对产品的稳定性乃至项目的成败产生直接的影响。光纤传感器是以光纤为介质研发的一类传感产品,其理论技术的不断进步依托于光纤通信技术的飞速发展。对于光纤传感产品而言,其产品性能的优劣不仅取决于先进的理论算法,更取决于产品在制造过程中的各个工序的管控。分析产品生产环节存在的各种风险源并加以控制,可以降低设备故障
如今,在线社交网络已经成为我们日常信息传播的重要载体和渠道,有关社交网络的研究,对人类社会发展和商业推广等方面都有着实际的应用价值。社交网络应用分析的一个重要问题是对用户进行排名。现有的社交网络用户排名算法主要分为基于中心性的方法,基于超链接引导主题搜索算法以及基于PageRank算法。传统的排名算法无论是加权的还是未加权的,仅使用基于边的关系,一些排名算法考虑到结点参与的高阶结构,通过模式去获取
并联机构具有精度高、承载能力大、位置反解简单等优点,特别是以Stewart平台并联机构为主的六自由度并联机构,研究应用广泛。但Stewart平台并联机构其本身存在一些不足,而且目前对于其他构型结构的六自由度并联机构研究匮乏。本文基于以上背景,提出了一种具有闭环支链的新型六自由度并联机构,用于运动模拟平台。论文对此新型并联机构进行了相应的理论分析和虚拟仿真,并结合人体体感模型运动阀值,优化了仿真运动