Fast-PPO:最优基线法的近端策略优化算法

来源 :小型微型计算机系统 | 被引量 : 0次 | 上传用户:yx_maomao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
深度确定性策略梯度算法(DDPG)是一种用途广泛的深度强化学习方法,但它往往会受到梯度估计不稳定的影响.最近的一些方法(如近端策略优化算法PPO)只是限制在较低速度下进行策略更新以保持稳定性.在本文中,我们在一个优势演员评论家算法(A2C)架构下对问题进行建模.我们首先分析了A2C中简化解析解的运算,其中策略更新的不稳定性主要归因于两个因素:动作估计的方差和累积奖励的方差.为了解决这个问题,我们提出了一种新的基于最佳基线的近端策略优化算法称为Fast-PPO.具体来说,我们混合了最优基线既考虑了动作估计的优势,又考虑了累积奖励的估计.实验结果表明,我们的方法不仅保证动作估计可以在正确的方向上更快地收敛,而且也保证了在较低的方差下了累积奖励的收敛速度.
其他文献
“皖海红美人”红茶产自安徽四海茶业有限公司的九华佛茶标准化生产基地.该生产基地位于九华山西麓的杜村乡,是传统名优绿茶产区.本研究探明了九华山及周边地区春季红茶的适
随着消费者维权运动、劳工运动的兴起及能源危机、环境污染问题的日益突出,企业社会责任越来越受到国际社会和我国的关注。如今,推行企业社会责任的活动正在我国逐步开展起来,并
期刊
采茶戏是流行于南方的、源自于茶乡人民茶事劳动的我国独有的一门]戏剧艺术形式,在不同省份又有着多种的茶戏种类.本篇论文选择了安徽省的祁门采茶戏中《天下的红茶数祁门》
本文首先大量分析如今各种类型企业对知识型员工绩效考核的方式及其优缺点,并深入分析现有知识型员工考核方式所存在的问题,从而提出构建合理的知识型员工绩效考核体系的重要性和必要性。针对现有知识型员工绩效考核存在的问题,本文提出通过目标管理法和KPI法相结合的方式构建知识型员工二级考核体系的思想,既知识型团队考核与员工考核的分层次考核思想,同时本文提出针对知识型员工的工作特性加强其工作过程的控制与考核的观
为了提高汉语词义消歧的性能,提出了一种基于滑动语义串匹配(Sliding Match of Semantic String,SMOSS)的汉语词义消歧方法.首先,从标注词义的训练语料中提取N元语义模板,建
传统的概率矩阵分解在推荐算法中取得了一定的效果,但是仍然面临数据稀疏性问题,并且对数据的利用效率不高,不能根据已有数据准确计算用户(物品)之间的关系,评分预测准确性仍
“万里茶路”是晋商在17~20世纪初开辟的一条连接中、蒙、俄的茶叶商贸及文化交流之路.本文通过研究“万里茶路”(山西段)沿线的现状及保护存在的问题,挖掘“万里茶路”的文化
清朝时期美国曾是茶叶进口和消费的大国之一,也是中国茶叶外销的一个主要市场,可以说,中美关系的发展最早也是由茶叶贸易开始的.自美洲殖民地阶段开始,茶叶贸易便悄然兴起.美