基于知识的深度强化学习研究综述

来源 :系统工程与电子技术 | 被引量 : 0次 | 上传用户：szjtznh

【摘要】

：

作为解决序贯决策的机器学习方法,强化学习采取持续的"交互-试错"机制,实现智能体(Agent)与环境的不断交互,从而学得完成任务的最优策略,契合了人类提升智能的行为决策方式。

【作者】

：

李晨溪曹雷张永亮陈希亮周宇欢段理文

【机构】

：

解放军理工大学指挥信息系统学院,浙江大学机械工程学院

【出处】

：

系统工程与电子技术

【发表日期】

：

2017年11期

【关键词】

：

深度强化学习知识探索策略逆强化学习

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

作为解决序贯决策的机器学习方法,强化学习采取持续的"交互-试错"机制,实现智能体(Agent)与环境的不断交互,从而学得完成任务的最优策略,契合了人类提升智能的行为决策方式。知识作为一种包含了经验、价值观、认知规律以及专家见解等要素的结构化信息,应用于强化学习可以有效提高Agent的学习效率,降低学习难度。鉴于此,本文以强化学习的基本理论为起点,对深度强化学习以及基于知识的深度强化学习研究成果进行了系统性的总结与梳理。

其他文献

部分操作岗位大学生产生迷茫的原因及对策分析

回回产卜爹仇贱回——回日E回。”。回祖一回“。回干肉果幻中 N_。NH lP7-ewwe--一”＄ MN。W;- __._——————》砧叫]们羽制作:陈恬’＃陈川个美食 Back to yield

期刊

大学生职业发展大学毕业生原因及对策

建国初期民主党派的政治参与在推进民主政治进程中的作用

新中国成立后，我国选择了一个不同于其他国家的政党制度即中国共产党领导的多党合作制度，其最大的特点就是共产党领导的八个民主党派的政治参与，它是我国民主政治建设的一种独特

期刊

民主党派政治参与民主政治作用

城市宜居性评价及影响因素研究——基于安徽的样本数据

随着社会经济的发展,城市宜居性问题日益受到人们广泛的关注。建设宜居城市,不仅是对建设资源节约型、环境友好型社会政策最好的诠释,更是城市居民对高水平的经济发展、高质

期刊

城市宜居性主成分分析聚类分析评价

改性沥青与SMA路面施工注意事项

该文结合高等级公路沥青路面工程施工实践,讨论了改性沥青与SMA路面的施工温度、混合料拌制、运输、摊铺和碾压成型,对提高沥青路面的使用性能和使用寿命具有重要的工程意义

期刊

沥青路面改性沥青SMA施工温度拌制摊铺道路建筑材料

数控车床智能车刀冷却系统的研发与改造

大部分前置刀架数控车床现有的的冷却装置是用一条普通的喷水管,通过喷射冷却液到车刀进行冷却处理。由于车刀与喷水管移动过程不一致,缺乏足够的冷却液充分冷却刀头,从而造

期刊

创新点科学性先进性冷却系统

干旱和CO2浓度升高对不同春小麦光合作用和气孔阻力及水分蒸腾效率的影响

为考察春小麦不同抗旱性品种对干旱和高CO2反应的差异,在不同土壤持水量和CO2浓度梯度条件下,对高产性高原602和抗旱性定西24两种春小麦交叉处理一个生长季,结果发现CO2浓度

期刊

春小麦(TriticumaestivumL.)CO2浓度升高土壤持水量光合作用气孔阻力蒸腾效率spring wheat （ Triticum a

基于知识的深度强化学习研究综述

其他学术论文