【摘 要】
:
离线深度强化学习算法将传统深度强化学习与离线学习两者相结合,是目前强化学习领域的研究热点之一。离线算法从一系列任务交互所得到的离线数据集中进行学习,该特点在机器人技术以及自动驾驶技术等领域有着极高应用价值。由于离线数据集样本通常无法包含所有的状态动作对,导致离线算法不可避免地出现动作值高估、模型偏差以及效果不稳定等情况。针对以上问题,本文主要做了以下三个方面工作:(1)权重自适应截断Q值方法。在类
论文部分内容阅读
离线深度强化学习算法将传统深度强化学习与离线学习两者相结合,是目前强化学习领域的研究热点之一。离线算法从一系列任务交互所得到的离线数据集中进行学习,该特点在机器人技术以及自动驾驶技术等领域有着极高应用价值。由于离线数据集样本通常无法包含所有的状态动作对,导致离线算法不可避免地出现动作值高估、模型偏差以及效果不稳定等情况。针对以上问题,本文主要做了以下三个方面工作:(1)权重自适应截断Q值方法。在类离线行动者-评论家算法的学习过程中,由于离线学习自身不与环境进行直接交互的特点,算法会错误地高估离线数据样本中未出现的状态动作值,针对以上问题,为了进一步缓解高估问题,提出基于权重自适应截断式约束深度Q学习算法。该算法将单值网络改为多值网络,并且计算策略当前选择的动作与训练得到的动作分布之间距离权重,根据权重截断导致高估的值原子。该算法通过控制高估的方法,实验证明在多种连续控制任务中表现优异。(2)元学习方法。截断误差的离线算法存在着训练数据分布不全的问题,以至于训练过程中缺失必要状态动作对,导致实验训练的结果不稳定,算法相当依赖离线数据集的分布情况,针对这个问题提出一种基于元学习方法的离线深度强化学习算法,该算法通过元学习方法构建一个初始网络参数,通过截断策略网络模型的误差,提高网络自适应能力与学习能力。算法从各种不同数据集中学习出的效果表现稳定,在连续控制任务中进行实验验证,结果表明该算法拥有更好的鲁棒性。(3)历史动作分类选择回放方法。离线算法的主流优化方法是通过网络模型限制动作选择,以此来控制行为策略分布和目标策略分布之间的距离,通过该方法截断误差的产生,也称为控制外推误差的产生,受此方法启发,从控制离线数据集的采样过程角度出发,提出一种历史动作分类选择回放的深度离线强化学习算法。该算法通过改进离线算法中传统经验回放方法来提升性能。将离线数据集分为历史动作优先数据集与原数据集两部分,训练过程充分平衡探索-利用之间的关系,从经验回放的角度截断误差产生。很好地弥补了离线深度强化算法在经验选择中随机盲目的特性,使算法获得了可比较的训练效果,为离线算法的优化提供新思路。以上三方面工作都是在离线强化学习的基础上,围绕离线学习中出现动作值高估、模型偏差等问题,从不同的角度对误差进行截断控制,并且都能达到较好地实验效果。
其他文献
近些年来,将深度学习与强化学习相结合的深度强化学习在人工智能领域取得了令人瞩目的成就。深度强化学习方法利用深度神经网络强大的表征能力的同时,也使用了强化学习算法的自主决策能力,在多个学习领域中都展现出较强的通用性并取得了不错的效果。连续控制类任务是一大类热门的研究领域,在深度强化学习算法中通常采用基于确定性策略梯度与行动者-评论家架构的深度确定性策略梯度算法。在面对大型状态空间任务时,深度确定性策
目前新能源汽车电池托盘焊后氧化物的清洗主要依靠人工作业,效率低下,单块电池托盘需要90分钟,产品合格率仅为70%,并需要消耗大量酒精,造成环境污染。针对上述问题,本文通过理论分析、模拟仿真、设备研发和试验研究相结合的方式,探索工艺参数对清洗质量的影响关系,开展铝合金托盘焊后氧化物激光清洗机器人系统的研究,主要研究内容如下:(1)基于激光烧蚀理论,分析脉冲能量在材料中的热传导方程和粒子相爆炸的理论模
电力电子变压器(Power Electronics transformer,PET)由于其能量调节灵活、功率密度高、无功功率补偿和谐波治理等优点,可广泛应用于轨道交通智能化供电等领域。然而,PET中的高频直流环节多采用双有源桥(Dual Active Bridge,DAB)拓扑,在进行移相控制时易产生回流功率。为了抑制回流功率,多采用扩展移相控制、双重移相控制等控制策略。但是,PET交流电网侧的单
负荷预测是保证电力供需平衡的基础,为电力系统的规划、调度以及平稳运行提供决策依据。2021年全国多地出现了拉闸限电的情况,进一步突显了电力负荷预测对于国民经济平稳运行的重要性。因此,研究电力负荷预测的新技术和新方法对于建设智能电网、能源物联网、新能源储能系统等具有重要意义。根据文献调研,本文将电力负荷预测方法分为传统预测法和智能预测法。传统预测法模型简单,运行速度快,但模型的性能极大地依赖专家经验
影像测量仪作为非接触式尺寸测量仪器,在工业领域具有广泛的应用。近年来,客户对于影像测量仪的测量精度要求不断提高,垂直尺寸测量误差作为影像测量仪的一项重要技术指标,其测量技术已经成为业内争相研究的课题。本文的研究目的是提高MM420影像测量仪垂直尺寸测量精度,使垂直尺寸测量误差不超过(8+L/100)μm。影像测量仪垂直尺寸测量方法是分别在待测零件不同高度的表面上自动对焦并读取Z轴的光栅尺测量值,其
与圆形隧道相比,矩形隧道可以提高20%左右的空间利用率,被广泛应用于城市综合管廊、人行过街通道、公路和地铁隧道。因其开挖成拱效应差,矩形隧道通常采用明挖法修建,但随着城市建设环境的日益严苛和顶管工艺的进步,越来越多的矩形隧道开始采用顶管施工,且顶进断面越来越大、距离越来越长。大断面矩形隧道因其形状特点,顶进过程中掘进面稳定性较差,如果支护压力设置不当,容易出现失稳现象,造成地表塌陷、周边建筑物破坏
随着机器人技术和人工智能技术的发展,各种各样的机器人逐渐进入日常生活工作中,将人们从简单琐碎的劳动中解放出来。近年来,伴随着新冠疫情出现,医疗资源不足愈加明显,然而,当前的医院病房等环境仍需要大量医护员工进行药品配送,因此,研究具有自主药品配送功能的机器人是医院场景下的重要发展趋势。为了实现这一目标,本文围绕药品快速识别和自主配送两个方向开展病房环境下的移动操作机器人关键技术研究。具体研究内容如下
逆变器并联可以提高系统的可靠性,增加系统容量。在孤岛微电网中,负载电流根据各逆变器输出总阻抗按照比例进行分配。由于逆变器并联系统中线路阻抗等不可控因素的存在,各台逆变器的输出总阻抗不确定,从而影响系统的均流性能,导致逆变器并联系统产生环流。逆变器并联系统的环流影响逆变器的性能和寿命。因此,如何实现逆变器并联系统的电流均分是逆变器系统的关键问题。本文的研究内容如下:(1)建立单台逆变器双闭环控制(电
随着轨道交通快速扩张,城市公共交通体系愈发完善,但私家车保有量增速持续提升,公共交通占比仍然较低,城市道路拥堵等交通问题普遍存在,故有必要对居民的出行行为进行更准确地分析。以往多数研究中,出行方式选择模型通常将居住地周边的交通供给与建成环境视为外生变量,忽视了出行者选择居住地时对出行方式的偏好带来的居住自选择效应,可能导致模型结论的不准确,影响公共交通体系发展与相关交通政策的实施效果评价。本文以出
随着城市地下空间开发、利用的不断增多,基坑工程在规模、深度与难度上正经历着跨越式发展,总体呈现“深、大、复杂”的态势。在地下水丰富的地区,基坑工程的实施往往会涉及到降水和止水问题,因此,需要事先对基坑场地地下水分布、水文地质参数等特征进行深入了解、分析,为降、止水设计提供可靠依据。合理的基坑降、止水设计,可以保证土方顺利开挖、防止坑底突涌以及减少对周边环境的影响。本文以苏州市轨道交通S1号线祖冲之