深度强化学习经验回放机制的改进方法研究

来源 :辽宁工程技术大学 | 被引量 : 0次 | 上传用户:huangcui8
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对带有优先经验回放机制的深度强化学习中存在的学习效果容易受到时序误差离群值的不利影响、学习过程忽略立即回报和时间差分误差小的经验、算法难以收敛等问题提出了优先经验回放深度强化学习的改进算法并分别应用于深度确定性策略梯度算法和深度Q网络算法中。针对深度确定性策略梯度算法存在的经验利用率不高和性能差的问题,提出一种基于DDPG算法的复合优先经验回放算法(Deep Deterministic Policy Gradient with Composite Priority Experience Reply,DDPG-CPER)。利用经验的立即回报和基于经验时间差分误差分别构建优先级对经验排序,随后对经验进行复合平均排序并基于排序优先性机制求得优先级对经验采样。使用得到的经验训练学习网络从而改善Agent的学习效果,并通过对比实验验证了算法的有效性。针对深度Q网络算法忽视了立即回报低和时间差分误差小的经验以及经验过度利用导致网络产生过拟合现象的问题,提出一种带有退出机制的基于DQN算法的二次采样优先经验回放算法(Deep Q Network Algorithm with Exit Mechanism for Second Sampling Prior Experience Playback,DQN-SSPE)。首先利用经验的立即回报和基于经验时间差分误差分别构建优先级对经验排序并抽取一定数目的经验,随后将序号次序颠倒构建优先级抽取一定数目的经验。算法中每个经验被采样的总次数限定在一定数目之内,经验被采样次数超过限制则无法被再次采样。使用采样的经验训练学习网络从而提高算法的性能,并通过相应的实验进行了验证。该论文有图15幅,表4个,参考文献58篇。
其他文献
配电网自动化对于保障电网持续可靠高效运行和提高电网管理水平具有十分重要的作用。馈线自动化作为配电自动化的核心,其作用是提升配网应对故障的自动化水平,缩短故障持续时
广东省是我国最大的甜玉米生产地和最大的甜玉米鲜穗终端消费市场,其甜玉米市场具有广阔的发展潜力,因此选育甜玉米新品种具有重要的意义。甜玉米起源于北美洲温带地区,我国
高效视频编码压缩是众多数字媒体应用的关键基础技术。新一代HEVC(High Efficiency Video Coding)视频编码标准采用多项高效编码技术,提供了卓越的编码压缩性能,在视频编码质
无线通信是现在最受关注和发展最迅速的领域之一。超宽带(Ultra-Wideband,UWB)通信系统在传输速率、频带复用以及抗多径衰落这几方面与其它的无线通信系统相比拥有非常大的优
随着环境污染的日益严峻与社会对清洁能源的巨大需求,核电逐渐成为能源供应中的重要组成部分。但福岛核电站事故产生的巨大危害让我们意识到,核岛厂房必须能抵御一定烈度的地震。由于工艺的限制,核岛厂房的水平与竖向布置是不规则的,隔震层支座布置对上部结构隔震后响应的影响规律十分复杂。同时,由于核电站项目的尖端重要性,各国对其减隔震技术的研究应用成果鲜有直接发表。另外,为了解决竖向地震作用对隔震后结构响应的放大
旋转结构广泛应用于各种现代机械和日常电器中,例如燃气轮机、汽轮机、水轮机和各种增压泵,以及电风扇等等,因此对旋转系统的振动特性研究有着重要的实际意义。在工程实际中,
目的:ANKRD22属于锚蛋白(ANK)重复序列家族,具有4个重复的锚蛋白基序,在肺癌、乳腺癌、胰腺癌等多种肿瘤中表达增高,但其功能、分子机制以及与肿瘤发生发展的关系有待进一步深入研究。我们前期研究发现ANKRD22在结直肠癌和结直肠癌干细胞中表达增加,提示ANKRD22可能参与了结直肠癌进展和结直肠癌干细胞特性的调控。本研究通过基因富集分析、制备特异性抗ANKRD22单克隆抗体和免疫组化染色等方
怪胎形象是德语文学中一个有趣的话题和现象。这类人因为社会、家庭或者自身性格的原因,以另类的举止、行为和思想与社会环境格格不入。本文选取德语文学中的怪胎形象这一话
目的:探讨热休克蛋白70(heat shock protein 70 HSP70)检测在急性心肌梗死(AMI)诊断及治疗中的意义。方法:本研究选择内蒙古医科大学附属医院心血管内科2017年12月至2018年12月住院的急性心肌梗死患者共160例(男112、女48例)为实验组、同期正常体检者共40例(男28、女12例)作为对照;又将实验组分为急性期和恢复期。采用酶联免疫分析法(双抗体夹心法)检测血清
自美国北岭地震和日本阪神地震爆发以来,钢框架结构中节点的转动变形能力逐步得到重视,而半刚性节点因其能兼顾承载能力和变形能力也逐步受到设计人员的青睐。在半刚性节点的众多研究方法中,组件法因其物理含义明确、适用性强、计算效率高等优点而被欧洲钢结构规范Eurocode 3所采用并推广。其中,受拉区的等效T形件为整个节点贡献了最为显著的转动变形能力,是半刚性梁-柱节点的核心组件,因而具有显著的研究意义。然