基于采样频次和相似性的经验回放

来源 :吉林大学 | 被引量 : 0次 | 上传用户:lhyzb364
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在深度强化学习的方法中,通常会采用经验回放,目的在于提高数据利用效率并打破经验之间的时序相关性,缓解在复杂任务中容易出现的经验遗忘现象。比较常用的经验回放方法为了稳定性往往会在经验选择阶段采用随机均匀采样的方法,而这种采样形式一方面受经验时序关系的影响,会使得采样不均衡,导致后期经验采样频次过低,不利于提升智能体学习过程的收敛速度。另一方面它忽略了不同经验之间在学习价值上的差异性,无法实现对经验的充分利用。尤其是许多在训练过程中产生的“近”策略经验,虽然它们十分有益于进一步提升策略,但受限于上述缺陷,它们难以发挥作用。本文主要针对经验池属性值设置以及经验采样这两方面,对于经验回放过程展开细致的研究和改进工作。本文工作内容总结如下:·随机均匀采样模式下的采样概率研究。本文从最常见的随机均匀采样模式出发,给出了经验采样概率的通用计算公式,用于直观描述经验在智能体的采样训练过程中的利用率,从理论上分析了经验回放中影响采样均衡性的各项因素。通过对该通用公式的进一步分析,证实了在随机均匀采样模式下,后期经验存在严重的欠利用现象,这不利于智能体的策略效果提升。而且,由于经验回放中对于经验多样性的要求,往往会设置比较大的经验池尺寸来尽可能多地存储经验,这会导致后半部分经验的采样概率进一步降低,加剧了这一欠利用现象。适当地增大采样批次大小会缓解这一问题,但由于时间开销以及经验之间的采样频次差距被拉大的负面影响,其作用有限。关于采样概率的研究增强了对于经验回放机制的客观认识,也为经验回放属性设计以及采样方法的改进提供了指导方向。·基于采样频次的经验采样策略研究。为了解决随机均匀采样模式下出现的后期经验欠利用问题,本文以采样频次为优先标准,在训练批次选择中优先选取采样频次较低的经验,以此来平衡不同时期经验的利用率。为了实现更好的平衡效果以及更细致地控制经验的优先级程度,本文提出了三种基于采样频次的经验选择策略:绝对优先级、相对优先级和概率优先级。并且,通过实验对比不同策略的稳定性以及在实验任务上的性能表现,最终发现概率优先级的方式综合表现最佳,优于其他两种方式以及随机均匀采样模式,能够平衡好经验利用的同时又能保证策略平稳收敛。·基于相似性的经验采样策略研究。该研究目的在于进一步探索经验采样方法在经验回放改进中的潜力。目前部分研究工作表明在经验采样批次中加入在策略经验或者“近”策略经验有利于提升策略收敛结果。因此,本文利用自组织映射神经网络对于经验进行聚类分析,其中与在策略经验同属一个类别的经验与当前策略具有较高的相关性,会更有利于智能体决策能力的提高,因此会在此类别中采样经验用于训练。本文设计了实验验证了这一聚类方法的有效性以及经验之间确实存在一定的相似性。·融合经验回放方法SFSER(Experience Replay Based on Sampling Frequency and Similarity)。该融合经验回放方法将上述基于采样频次的经验采样策略和基于相似性的经验采样策略有效结合,通过对二者采样数量上的分配来使其相辅相成,能够让经验回放对于经验的利用更加充分,使得经验回放在强化学习算法中能发挥更显著的效果。本文在Mujoco环境上针对多个连续动作域任务进行了测试,结果表明本文的融合经验回放方法优于其他用于对比的经验回放方法,训练过程更加稳定,能够显著地提高采样效率以及最终的策略效果。本文的工作丰富了对于经验回放方法的理论认识,得到了对于经验池设计的指导性结论。同时,本文提出的改进方法不仅弥补了经验回放本身采样不均衡的缺陷,同时,也进一步提高了经验采样在强化学习中的积极作用。
其他文献
直线压缩机作为制冷设备的核心,因其高效率和良好的容量调节能力在家用制冷领域受到欢迎。单行程式线性压缩机早已在工业、农业等各个领域普遍使用,也已被学术界广泛研究。与单行程直线压缩机相比,双行程压缩机具有更高的效率和特殊的优势,本文依托于《军民融合线性压缩机产业化技术研究》项目背景,设计了一款双行程往复式线性压缩机,采用动磁式直线电机提供驱动力。结合分析软件对其结构以及动、静态性能进行了深入研究并通过
学位
基于1960—2013年咸宁市6个国家气象站资料,分析了咸宁市人体舒适度指数和度假气候指数及其时空变化特征。结果表明,咸宁市人体舒适度以咸宁为中心,依次向西北、西南、东南逐渐增大,即整体趋于最舒适;人体感觉春、秋季为清凉到最舒适,夏季为温暖到偏热,冬季为微冷;4月、5月、9月、10月人体感觉最舒适,7、8月感觉偏热,1月感觉很冷。除6月、7月外,大部分时间适宜度假,尤以春、秋季最适宜,其中10月特
期刊
集成电路中插入测试点的方法是通过在电路中插入一定数量的测试点来提高芯片的故障覆盖率,是芯片测试中不可或缺的环节。集成电路测试是整个设计流程中的关键步骤之一。为了进一步缩短测试时间和提高芯片良品率,越来越多的国内外学者们从事集成电路测试方法的研究。本文通过对混合测试点插入的HTPI(Hybrid Test Point Insertion)方法深入研究,提出了结合测试点质量对测试点进行约简的RHTPI
学位
本文运用车辆动力学结合Trucksim与Simulink进行联合仿真依据Euro-NCAP测试法规对矿用自卸车自动紧急制动系统的制动过程进行了研究。本文以基于碰撞时间的安全模型为基础,以提升避撞效率为目标对其进行优化,主要内容有:首先,建立矿用自卸车制动系统动力学模型,同时进行制动力分配计算。其次,研究自动紧急制动系统的工作原理并建立安全模型,分析基于碰撞时间的安全模型并进行优化。随后,研究自动紧
学位
曲柄连杆式弛张筛作为动力煤生产工艺当中重要原煤分级设备,其筛分效率的好坏将直接影响到动力煤产品质量的优劣。针对动力煤生产工艺过程中弛张筛的性能参数对筛分效率与筛面寿命影响的问题,基于弛张筛弹性力学与多体动力学理论基础,建立了柔性筛面的弹性压杆模型和筛面离散化的悬链线模型,研究了弛张筛的三个性能参数筛面倾角、弛张量和弛张频率对筛分效率的影响规律,以寻求最高筛分效率的同时降低筛面磨损为目标,对弛张筛的
学位
报纸
随着信息和智能化时代的到来,在机器学习、模式识别等领域中,人们所研究的数据的维度越来越大,比如各种RNA测序数据集,其数据维度往往多达万数,易引发“维度灾难”“过拟合”等问题,从而降低机器学习分类器的综合性能。基于上述问题,人们对特征选择展开了研究。特征选择,顾名思义是指从原始特征空间中遴选“好的”特征,剔除“不好的”特征,“好的”特征指对分类任务的完成具有实际意义的特征即相关特征,反之,“不好的
学位
目前,消防工作对于保证城市安全意义重大,对于一个城市来讲,火灾是一类常见的、危害高的安全问题。尤其是对于高层建筑而言,一旦发生火灾,不仅会造成较大的财产损失,也可能引起较大的人员伤亡问题。所以,在日常消防工作中,就要针对高层建筑等重点建筑或场所做好防火监督,及时消除存在的安全隐患,确保高层建筑的整体安全。
期刊
城市高层建筑消防设备正常是保证消防安全的关键,火灾是对建筑构成毁灭性打击灾害,建筑火灾存在时空不确定性,投入资金配套设置建筑消防设备保证正常功能状态对消防安全具有重要作用,高层建筑主红消防设备检查管理中存在许多问题影响消防安全,表现为检测技术水平低,检测人员素质差等,加强消防设备监督检查非常重要。概述建筑消防设施设备的作用,论述建筑消防设备监督检查的重要性;分析建筑消防设备维护管理中存在的问题,提
期刊
工业机器人的发展随着中国制造2025的进行也越来越迅速。机器人是新时代发展的一个重要领域,现在是工业生产中使用的一种常见的机械。许多危险、高强度的工作都可以被机器人取代。随着机器人的发展,应用越来越广泛且都趋向于轻便和高效。并联机构在工业机器人的应用中具有越来越大的优势。本文以3-CRCR/CU并联机构为研究对象,分别从自由度分析、运动学分析、工作空间分析以及进行运动仿真分析。本文主要研究内容为:
学位