基于样本优选与演示的深度强化学习

来源 :中国矿业大学 | 被引量 : 0次 | 上传用户:wuweiguowwg32691819
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
经过多年发展,深度强化学习的理论研究已经逐步成熟,在解决高维原始输入数据问题和控制决策问题上表现得尤为突出。但是面对复杂的环境,深度强化学习算法在网络进行训练时需要耗费大量的时间,从而导致算法效率不高。针对这一问题,本文的主要研究内容为:第一,针对随机选择样本进行经验回放而导致智能体训练效率低下的问题,提出了基于样本优选的优先经验回放算法。首先,根据预训练网络生成样本选择的阈值,选取优先级较高的样本进入优先回放单元;其次,在训练过程中,通过优先级更新的方法,加大优先级高的样本被挑选的概率,使得智能体更快地学习到最终目标;最后,采用了部分奖励重塑的方法,对最终目标的前几步给予一个额外的奖赏,使智能体在最后探索时能朝着最终目标更快的学习。第二,针对在已有演示样本的实验环境中,如何利用演示样本提高智能体训练效率的问题,提出了基于演示样本的深度逆强化学习算法。首先,通过预训练网络使智能体尽可能的模仿演示样本;其次,通过深度学徒学习网络重新构建演示样本的回报函数,输出演示样本中动作的策略分布,并且通过逆强化学习网络重新构建随机探索样本的回报函数;最后,利用重构的回报函数与动作的策略分布构建深度正向强化学习网络更新的损失函数。Gym与Atari实验平台结果表明,与其他经典的强化学习算法相比,由于采用了样本优选并且利用了演示样本构建新的回报函数,所提算法在深度强化学习环境中进一步加快了训练速度,提高了训练效率。该论文含有图20幅,表4个,参考文献70篇。
其他文献
以滤纸平板和羧甲基纤维素钠培养基为基础培养基,从采集的样品中筛选出具有分解纤维素能力的38株菌株.采用纤维素刚果红培养基进行粗选,得到10株透明圈较大的菌株.将这10株菌
对添加酶改性大豆磷脂的面团流变学特性进行了研究,结果显示,酶改性大豆磷脂对面团的形成时间、稳定性、抗拉伸强度等有不同程度的提高,改善了面团的流变学特性,提高了面粉的
在即将到来的万物互联时代,人机交互是人与物连接的重要一环,而手势是一种非常方便的人机交互方式,如何感知手势也是近年来的研究热点之一。目前对于手势感知的研究主要基于
研究发现葡萄糖与浓硫酸在一定条件下反应生成的产物可与1-萘酚反应生成有色物质.在570nm处有最大吸收,其吸光度与葡萄糖的浓度在一定的范围内呈线性关系,检出限可达10ppm,本
任鸿翔先生所创造的《渭水情》深受大众喜爱,结构严谨,层次分明。以强烈的对比与简洁的手法进行弹奏,那优美的旋律引起了社会的强烈反响。本文针对琵琶曲《渭水情》的艺术特
<正>1980年汪曾祺的《受戒》发表后,以其抒情优美的笔法讲述了出家人明子的故事,故事中对出家人追求美好爱情的渲染,不仅使编辑在发表时带上了"要有点勇气"的豪壮感,而且,被
会议