【摘 要】
:
为了进一步提高双延迟深度确定性策略梯度算法(TD3)的网络探索性能和收敛速度,提出一种采用基于多步优先和重抽样优选机制的双经验回放池的噪声流TD3算法。该算法在策略网络
【机 构】
:
武汉科技大学计算机科学与技术学院,武汉科技大学智能信息处理与实时工业系统湖北省重点实验室
【基金项目】
:
国家自然科学基金资助项目(61572381),武汉科技大学智能信息处理与实时工业系统湖北省重点实验室基金资助项目(znxx2018QN06).
论文部分内容阅读
为了进一步提高双延迟深度确定性策略梯度算法(TD3)的网络探索性能和收敛速度,提出一种采用基于多步优先和重抽样优选机制的双经验回放池的噪声流TD3算法。该算法在策略网络中的每一层添加噪声流以增加参数的随机性,并引入多步优先经验回放池,将多个连续样本组成一个基础单元进行存储,训练时通过多步截断双Q处理实现对值函数的有效逼近,同时增加一个经验回放池采用重抽样优选机制来存储学习价值更大的样本,双经验回放池的设置可弥补样本多样性不足的问题。在OpenAI Gym平台的Walker2d-v2场景中进行仿真实验,结果
其他文献
加入世界贸易组织后,我省农业将面临新的国内和国际环境,有利于农业生产技术水平和农产品质量水平的提高,也对我省农产品市场、农村经济发展和农民收入产生较大影响.要根据世
近年来,随着相关法律法规体系的完善,资产证券化业务在我国得到了迅猛发展。这种新型融资方式得以发展的原因,不仅仅在于融资期限、资本成本、资金用途等方面的灵活性,更重要
语文综合性学习是语文课程改革的一个亮点,主要体现为语文知识的综合运用,听、说、读、写能力的整体发展,语文课程与其他课程的沟通,书本学习与实践活动的紧密结合:强调了合作精神
国家形象是国家力量和民族精神的表现和象征,是综合国力的集中体现,利用媒体来向世界推广中国国家形象是一个系统工程。文章从媒体推广的角度,探讨了全球性媒体事件、文化宣
ue*M#’#dkB4##8#”专利申请号:00109“7公开号:1278062申请日:00.06.23公开日:00.12.27申请人地址:(100084川C京市海淀区清华园申请人:清华大学发明人:隋森芳文摘:本发明属于生物技
受经济环境不确定性和会计准则不完善等因素的影响,现行会计准则赋予企业自主选择会计政策和方法的权利。然而有些企业却将这种权力作为操纵利润和平滑收益的工具,进而造成了
目的:验证弗莱雷对话式教育模式在艾滋病患者抗逆转录病毒治疗(ant iretroviral therapy,ART)依从性干预应用可行性和适用性;探讨对话式教育对改善艾滋病患者治疗依从性、药物
负荷动态特性对电力系统的动态行为具有重要的影响,是引起电力系统电压稳定问题的关键因素。本文以负荷动特性的建模及其对电压稳定的影响为主线,研究内容包括负荷时变性问题
约翰·塞巴斯蒂安·巴赫(Johann Sebastian Bach)是德国最伟大的艺术家之一。他除了是巴洛克时期影响力最大的音乐家,也是非常优秀的教育家,在钢琴教学中,约翰·塞巴斯蒂安·巴赫(下文简称巴赫)的键盘作品是非常重要的教学内容,他的作品对于培养学生养成复调思维和帮助学生掌握复调弹奏技术十分重要,学好巴赫的作品对弹奏其他各类作品也会有很大的参考价值。在日常教学中,尤其是在教学中增加应用度和