【摘 要】
:
作为解决序贯决策的机器学习方法,强化学习采取持续的"交互-试错"机制,实现智能体(Agent)与环境的不断交互,从而学得完成任务的最优策略,契合了人类提升智能的行为决策方式。
【机 构】
:
解放军理工大学指挥信息系统学院,浙江大学机械工程学院
论文部分内容阅读
作为解决序贯决策的机器学习方法,强化学习采取持续的"交互-试错"机制,实现智能体(Agent)与环境的不断交互,从而学得完成任务的最优策略,契合了人类提升智能的行为决策方式。知识作为一种包含了经验、价值观、认知规律以及专家见解等要素的结构化信息,应用于强化学习可以有效提高Agent的学习效率,降低学习难度。鉴于此,本文以强化学习的基本理论为起点,对深度强化学习以及基于知识的深度强化学习研究成果进行了系统性的总结与梳理。
其他文献
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食
Back to yield
新中国成立后,我国选择了一个不同于其他国家的政党制度即中国共产党领导的多党合作制度,其最大的特点就是共产党领导的八个民主党派的政治参与,它是我国民主政治建设的一种独特
随着社会经济的发展,城市宜居性问题日益受到人们广泛的关注。建设宜居城市,不仅是对建设资源节约型、环境友好型社会政策最好的诠释,更是城市居民对高水平的经济发展、高质
该文结合高等级公路沥青路面工程施工实践,讨论了改性沥青与SMA路面的施工温度、混合料拌制、运输、摊铺和碾压成型,对提高沥青路面的使用性能和使用寿命具有重要的工程意义
大部分前置刀架数控车床现有的的冷却装置是用一条普通的喷水管,通过喷射冷却液到车刀进行冷却处理。由于车刀与喷水管移动过程不一致,缺乏足够的冷却液充分冷却刀头,从而造
为考察春小麦不同抗旱性品种对干旱和高CO2反应的差异,在不同土壤持水量和CO2浓度梯度条件下,对高产性高原602和抗旱性定西24两种春小麦交叉处理一个生长季,结果发现CO2浓度